文章摘要
【关 键 词】 AI性能、MLPerf、焱融科技、存储系统、分布式训练
2023年9月25日,MLCommons®发布了MLPerf® v1.0存储性能基准测试结果,其中焱融科技的全闪存储产品在AI深度学习模型的评估中表现突出。焱融科技与多家国际知名厂商竞争,并在带宽、模拟GPU数量和GPU利用率等关键性能指标上获得多项世界第一。
MLPerf是由图灵奖得主大卫·帕特森联合谷歌、斯坦福大学、哈佛大学等机构发起的国际权威AI性能基准测试。MLCommons在2023年首次推出MLPerf存储基准测试,这是目前唯一的开源、公开透明的AI/ML基准测试,旨在评估存储系统在ML/AI工作负载中的表现。MLPerf Storage v1.0基准测试规则严格,要求高GPU利用率,禁止缓存,并确保数据集大小超过主机节点内存。
焱融科技参与MLPerf测试的产品是最新发布的F9000X全闪分布式一体机,搭载英特尔®至强®第5代处理器和Memblace PCIE 5.0 NVMe闪存,配备NVIDIA ConnectX-7 400Gb NDR网卡。在MLPerf Storage v1.0测试中,焱融科技是国内唯一一家参与了全部模型测试的存储厂商,包括3D-Unet、CosmoFlow和ResNet 50。焱融全闪存储一体机F9000X展现了卓越的性能,全面覆盖主流模型应用数据负载需求。
在分布式训练集群场景中,焱融存储在所有三个模型的测试中,能够支撑的每个计算节点平均ACC数量和存储带宽性能均排名第一。随着计算规模的扩大,焱融全闪存储一体机F9000X展现了出色的性能,存储系统的带宽性能保持明显的线性增长能力。
为了满足AI计算存储的性能需求,存储系统需要具备高性能设备支持、MultiChannel网络带宽聚合、全链路direct I/O和NUMA优化等关键特性。焱融分布式文件存储YRCloudFile通过这些技术亮点,在MLPerf Storage测试中接近硬件性能极限,为AI计算提供所需的高性能存储解决方案。在实际测试中,YRCloudFile展现出能够支持大规模AI训练任务的能力,即使在极端条件下也能保持系统的稳定性和性能。
原文和模型
【原文链接】 阅读原文 [ 2284字 | 10分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★