为让CPU在AI领域扳回一城英特尔做了很多_行业芯闻_慧聪电子网

如今，大多数机器学习都是在处理器上完成的。有人会说，学习的过程必须由GPU进行加速，但对于多数用户来说，这可能并不是最好的建议。

到目前为止，GPU仍然比其他东西更适合用于机器学习的软件。不过英特尔的一系列努力已经让这种近乎被GPU制霸的状态有所缓和——加上英特尔XeonSP家族的白金版本，最高性能间的差距已缩小到近2倍，而不是之前的100倍。这可能会让一些人感到震惊，但它的文档记录确实不错，而且当我们了解它的底层架构时，也许就不会那么震惊了。性能上如此接近，使得GPU加速器成为一种奢侈品，而不是必需品——也就是说当我们真正需要的时候，GPU是一个更好的选择。

为让CPU在AI领域扳回一城英特尔做了很多

毫无疑问，机器学习领域中，“加速器”在性能和/或功耗方面都有优势。在这篇文章的结尾，笔者会回过头来谈一谈：“如果我们只做机器学习会怎样？”。由于多数用户需要的不仅仅是一台“机器学习”服务器，笔者将关注的是为何英特尔XeonSP白金处理器仍然是服务器的最佳选择，包括需要将机器学习作为其工作负载的一部分服务器。

基准在哪里？

英特尔的工程师会告诉你，深度学习的框架是高度偏向于为GPU优化的，而不是CPU。因此，英特尔采取了一些措施——在这些框架缺乏CPU优化的今天，英特尔对已经为GPU优化的框架进行了CPU优化。

结果不言自明。随着CPU优化的增加，TensorFlow基准测试的CPU获得了高达72X的性能(参见Intel博客，标题为关于现代英特尔架构的TensorFlow优化)。类似的，Caffe基准测试中，CPU优化使其增益高达82X(参见Intel的博客，标题为Intel优化Caffe与BVLCCaffe相比)。这只是一个开始。Torch框架的网站中宣称“Torch是一个科学的计算框架，广泛支持将GPU视为首选项的机器学习算法。”

在本文后面，笔者将逐一介绍这些框架和库，并提供下载的链接，详细介绍基准测试结果。

当然，最重要的基准是你自己的程序。因此，我建议您在使用提供CPU优化和GPU优化的框架和库时对比一下结果。

实际上，最流行的框架都有针对CPU优化的版本，尤其是英特尔XeonSP处理器。这里有一个部分运行的关键软件，用于加速对英特尔Xeon白金处理器版本的深入学习，这足以使GPU的最佳性能优势接近于2倍，而不是100倍。

我们所了解和热爱的深度学习框架

以下所有这些框架都对英特尔Math内核库(英特尔MKL)和英特尔高级矢量扩展指令集(IntelAVX)进行了优化。

TensorFlow是谷歌创建的领先的深度学习和机器学习框架。对于Linux来说，对于处理器的Tensorflow优化是可以通过pip安装的。Intel性能测试显示，如果没有这些性能优化，Tensorflow基本版本的CPU性能将提高72倍。

Caffe是最受欢迎的图像识别社区应用程序之一。在CPU上运行时，英特尔已经为改进Caffe的性能做出了贡献。一些性能测试显示，对CPU的优化增加了82倍。

Torch是一个流行的深度学习框架。在未经调整CPU优化的情况下使用标准的Torch是不现实的。使用英特尔软件优化的Torch，运行在CPU上时会Torch的性能，特别是在英特尔Xeon可扩展处理器上。

Theano是一个开放源码的Python库，很受机器学习程序员的欢迎，可以帮助定义、优化和评估涉及多维数组的数学表达式。CPU优化为CPU设备提高了性能,尤其是英特尔Xeon可扩展处理器和英特尔Xeon处理器Phi。

Neon是一种基于python的深度学习框架，旨在为现代深度神经网络的使用和可扩展性提供便利，并致力于在所有硬件上提供最佳性能。Neon是由Nervana推出的，它已被英特尔公司收购。

深度学习数学库

Python和它的库可能是机器学习应用中最流行的基层部分。Python的加速版本在过去的几年里得到了广泛的应用——可以直接下载，或者通过Conda、yum和apt-get、Dockerimages。运行没有加速Python在多数情况下是不可行的。

BigDL是ApacheSpark的分布式深度学习库。对于BigDL，用户可以将他们的深度学习应用程序编写为标准的ApacheSpark程序，它可以直接运行在现有的ApacheSpark或Hadoop集群之上。以Torch为模型，BigDL为深度学习提供了全面的支持，包括数字计算(通过张量)和高水平的神经网络;此外，用户还可以使用BigDL将预先训练的Caffe或Torch模型加载到Spark程序中。据报道，英特尔声称在BigDL的处理比单节点Xeon处理器上的“开箱即用的开源caffe、Torch或TensorFlow快得多”，与主流GPU相当。

MXNet是一个开源深度学习框架。英特尔MKL-DNN是一个开源的、能提高性能的库。

除了上面提到的框架和库之外，英特尔数据分析加速库(DAAL)是一个开源的优化算法构建块，用于数据分析阶段，此阶段通常与解决大数据问题相关联。该库是为使用流行数据平台而设计的，包括Hadoop、Spark、R和Matlab。

如果我们只做机器学习呢？

一个服务器需要支持多种工作负载时，英特尔Xeon可扩展处理器可能是最好的解决方案，但如果我们想要购买一台“机器学习”服务器或超级计算机呢？

笔者的建议是“确定你真正知道你需要什么”，并意识到这个领域的事情正在发生变化。机器学习的加速器可能会从GPU转变为FPGA、ASIC，以及一些描述中有“神经网络”的产品。在所有这些解决方案中，支持各种工作负载的CPU仍然是英特尔Xeon处理器。

加速器的选择越来越多样化。高核心的CPU和FPGA提供了非常灵活的选择，性价比和效率都不差。英特尔的XeonPhi处理器系统可以进行训练，或者学习一个AlexNet图像分类系统，比使用NvidiaGPU的类似配置系统的速度快2.3倍。英特尔已经表明，英特尔XeonPhi处理器每美元的性能比一个主机GPU解决方案高出9倍，每瓦的性能提高了8倍。未来还有更多英特尔Nervana专为人工智能设计的产品。

机器学习的基础

XeonSP处理器，尤其是白金级处理器，为机器学习提供了出色的性能，同时给我们提供了比其他任何解决方案更多的通用性。如果我们需要进行加速，英特尔Xeon可扩展处理器仍然是一个具有加速器的通用系统的核心，而这些加速器的选项正在迅速增多。不管怎样，依靠Skylake处理器和他们对机器学习的出色支持，给了我们一个性能和通用性的最佳组合。

为让CPU在AI领域扳回一城英特尔做了很多

相关文章

精彩评论

热点排行

热门作者

东方

亓

松月

活动推荐

电子云课堂

为让CPU在AI领域扳回一城 英特尔做了很多

相关文章

精彩评论

热点排行

热门作者

东方

亓

松月

活动推荐

电子云课堂

为让CPU在AI领域扳回一城英特尔做了很多