Storage

美光9400 NVMe SSD是用于AI Storage的顶级PCIe Gen4 SSD

By Wes Vaske - 2023-09-19
According to the their website, MLCommons成立于2018年,旨在加速机器学习创新并增加其对社会的积极影响...” Today, MLCommons维护并开发了6种不同的基准套件,并正在开发开放数据集,以支持未来最先进的模型开发. MLPerf存储基准套件是基准测试集合的最新成员.

As a member of the MLCommons Storage Working Group, 我帮助开发了基准规则和流程,以确保基准测试结果对研究人员来说是有意义的, customers, and vendors alike and we’ve just published the first round of submissions including results for the Micron 9400 SSD.

但为什么我们需要一个专门针对人工智能工作负载的新基准实用程序呢?

表征人工智能训练系统的存储工作量面临着MLPerf存储基准套件旨在解决的两个独特挑战-人工智能加速器的成本和可用数据集的小尺寸.
The first is obvious, AI accelerators can be expensive, 复杂的计算系统和大多数存储供应商没有足够的人工智能系统来分析他们的沙巴体育结算平台在存储解决方案中的可扩展性. 

第二个问题是,与人工智能行业常用的数据集相比,公开可用的数据集很小. 而MLCommons及其参与者可用的数据集可能高达150gb, 生产中使用的数据集通常是10到100 tb. 现代服务器可以轻松地拥有1到2 tb的DRAM,这可以在第一个训练epoch之后将小型基准测试数据集缓存到系统内存中,然后从DRAM中的数据执行后续运行. 但是由于生产数据集的大小,它们不会看到相同的行为.

MLPerf Storage通过模拟标准的基于cpu的服务器中的加速器来解决第一个问题. At the low level, MLPerf Storage使用与常用工作负载(pytorch)相同的AI框架, tensorflow, etc.),但MLPerf通过“睡眠时间”绕过了平台的计算部分,这是通过在具有实际AI加速器的系统上运行实际工作负载的实验发现的.

仿真加速器和真实加速器的比较表明,它们的工作负载非常相似.

MLPerf Storage通过创建与实际类似的数据集解决了第二个问题, production datasets but replicated to be much larger. 该基准测试支持各种数据存储技术,如文件系统和对象存储,以及多种数据类型,如序列化numpy数组, TFRecord files, HDF5 files, and more.

In addition to solving these problems, in a previous blog post with John Mazzie, 我们表明,人工智能训练工作量比许多人预期的要复杂得多——工作量既突发又对延迟敏感.

MLPerf存储基准套件是一种很好的方法,可以在不需要昂贵的AI加速器的情况下,以一种代表真实AI训练工作负载的方式来测试存储系统,同时还支持代表真实数据集的数据集大小.

Now we’re proud to announce that the Micron 9400 NVMe SSD 在3D医学成像基准(Unet3D)中支持17倍加速器. This translates to 41 samples per second or 6.1 GB/s of IO throughput.

有了这个易于运行且代表真实人工智能训练环境的基准测试,美光数据中心工作负载工程团队将展示跨存储设备和解决方案的数据,以便我们更好地了解如何调整和设计存储以提高加速器利用率.

Micron 9400 NVMe SSD



Wendy Lee-Kadlec

Wes Vaske

Wes Vaske是德克萨斯州奥斯汀市美光数据中心工作负载工程团队的高级技术人员. 他分析企业工作负载,以了解Flash和DRAM设备对应用程序的性能影响,并为内部设计提供“真实的”工作负载表征 & development teams. Wes的重点是人工智能应用和开发跟踪和系统观察的工具.

+