DESIGN TOOLS
applications

AI and machine learning demand performance storage: part two

Micron Technology | March 2019

人工智能和机器学习需要高性能存储系列, part two: Training

In the previous blog in my series on artificial intelligence and machine learning, I introduced you to what AI and ML are, 并介绍了一个高层次的流程概述,介绍了数据如何被转换并用于人工智能系统创建“智能”响应. In that blog, 我们解释了必须如何从多个不同的来源摄取大量数据,然后将其转换为可用的格式,用于人工智能过程的下一步:训练.

And that is where we will pick up in Part Two today. As a reminder, 下图代表了一个典型的AI工作流,它由四个主要组件组成:摄取, transform, train, and execute. In the previous blog, 我们介绍了摄取和转换过程,因为它们通常会在数据准备用于人工智能训练过程时一起发生.

AI Training 1

培训步骤通常是流程中资源极其密集的一部分, though as we will see in a future blog post, inference can be even more resource intensive. This is where really hefty hardware, 通常以图形处理单元(gpu)的形式,具有大量快速内存, are used. 工作流的训练阶段涉及一组重复的步骤,这些步骤对所摄取的数据执行一组数学函数,旨在以高概率识别所需的响应/结果. The results are then evaluated for accuracy. 如果精度不能高到可以接受的程度(通常意味着在95%以上的范围内),则修改数学函数,然后通过将更新应用于相同的数据集再次尝试.

AI Training 3

典型AI用例的典型例子是简单的图像识别. 在这个例子中,最著名的图像识别模型和测试数据集被称为 ImageNet and a set of functions called ResNet. 我不会在这里详细介绍,但是ImageNet训练数据集是1.2 million images and takes around 145GB of data storage. ResNet has varying degrees of complexity, 但通常使用的是ResNet-50(也有ResNet-101和-152). 这个数字代表了被称为“神经元”的不同数学函数的神经网络“层”的数量(也代表了人工智能模型的复杂性)。.

So, 这和我们在美光公司非常感兴趣的存储和内存方面的讨论有什么关系呢? Well, 培训过程-就像之前的摄取/转换阶段一样-可能是一个耗时且复杂的过程. But unlike the ingest/transform stage, 列车阶段依赖于高性能计算来执行数学函数.

在我们的测试中,我们发现解决方案可用的快速存储和内存数量直接影响完成给定训练运行所需的时间. The faster we can complete each training run (called an epoch), 我们可以执行的时代越多,我们的人工智能系统就越准确,同时保持相对较低的训练时间. 因此,虽然我们可以使用hdd来存储训练数据,但旋转媒体确实很慢. gpu获取数据的速度不够快,无法及时完成训练纪元. ssd通常比hdd快几个数量级(在IOPS和延迟方面). For this reason, it seems logical that if we can feed the training system faster, then we can complete the work more quickly.

Also, 如果我们可以增加每个epoch的数据量(我们称之为“批处理”),那么我们可以更快地运行每个epoch以获得相同的结果. Thus, the more memory we can put into the system the better. 但是,虽然我们可以在服务器中放入2TB或更多的DRAM,但这可能非常昂贵. Most organizations are constantly balancing cost and efficiency. Based on our testing, 我们认为,专注于更快的存储(ssd),并以更低的价格这样做,会有更好的结果. SSDs cost less than DRAM on a per-byte basis.

美光人工智能工程师韦斯·瓦斯克(Wes Vaske)进行了一些测试,证明了这一点. While his blog and recent webinar with Forrester go much deeper into the details of his testing, 他的一些结果说明了快速或缓慢的存储和记忆对人工智能训练过程的影响. Wes的测试和图表清楚地表明,快速存储对整体性能的影响与简单地增加内存一样大. 这可以通过查看两个“低内存”值来说明,并将“快速磁盘/低内存”条(第三条)与“慢磁盘/高内存”条(第二条)进行比较。. In this instance, buying faster storage, additional memory, or both has a dramatic impact on overall performance. 找到这两种资源的适当平衡将取决于您想要执行的数据集和模型.

AI Training 2

过去的测试表明,人工智能训练直接受到计算资源的影响——比如添加gpu, 但这个测试证明,即使使用相同的CPU/GPU组合,内存和存储资源也会对AI性能产生直接影响. Micron is uniquely positioned to help you be successful in AI. 虽然我们不能把所有的变量都考虑到你特定的人工智能建模要求, 我们使用ResNet-50进行的测试很好地说明了存储和内存对人工智能工作负载的重要性. I encourage you to get the details from Wes’ blog to learn even more.

Visit Micron.com/AI.

Stay up to date by connecting with us on Linkedin.

" class="hidden">易车会