百度昆仑芯片性能大爆发，AI芯片未来增长的杀手锏_滚动新闻_慧聪电子网

百度智能芯片总经理欧阳剑在一场公开课中首次对昆仑芯片进行了详细分享，并公开了昆仑K200与英特尔T4GPU的多项对比数据，其中最有优势的一项数据是Gemm-Int8的Benchmark是T4性能的3倍。欧阳剑还通过视频展示了昆仑芯片的杀手锏，与国产处理器飞腾的良好适配。

众所周知，GPU是打造AI芯片的重要手段之一。但百度昆仑芯片却是基于FPGA而打造。百度智能芯片总经理欧阳剑在一场线上直播中表示，昆仑芯片与GPU和专用AI芯片相比，在实行性能和性价比上都有一定的优势。

百度昆仑基于FPGA所打造的AI芯片采用了XPU架构。在FPGA方面，百度拥有超过8年的FPGAAI加速器积累，累计上线超过了1万个。其XPU架构及软件栈也在实际业务中，有了超过8年的持续迭代。长时间的积累，让百度也在AI领域小有成就——百度曾在HotChips大会上发表过3篇论文，据悉，他也是国内在发表论文最多的单位。

百度昆仑芯片性能大爆发，AI芯片未来增长的杀手锏

昆仑芯片的定位是通用AI芯片，目标是提供高性能、低成本、高灵活性的AI芯片。

昆仑发布之后，其相关消息陆续公布。架构方面，昆仑有2个计算单元，512GB/S的内存带宽，16MBSRAM/unit。欧阳剑介绍，16MB的SRAM对AI推理很有帮助，XPU架构上的XPU-SDNN是为Tensor等而设计，XPU-Cluster则能够满足通用处理的需求。

昆仑第一代芯片并没有采用NVLink，而是通过PCIE4.0接口进行互联。在三星14nm的制造工艺和2.5D封装的支持下，昆仑芯片峰值性能可以达到260TOPS，功耗为150W。

在灵活性和易用性方面，昆仑面向开发者提供类似英伟达CUDA的软件栈，可以通过C/C++语言进行编程，降低开发者的开发难度。

目前，基于第一代昆仑芯片，百度推出了两款AI加速卡，K100和K200，前者算力和功耗都是后者的两倍。

欧阳剑给出了一系列K200对比英伟达T4的数据，其中在Gemm-Int8数据类型，4KX4K的矩阵下，昆仑K200的Benchmark分出超过2000，是英伟达T4的3倍多。

在语音常用的Bert/Ernie测试模型下，昆仑也有明显性能优势。

在线上性能数据的表现上，昆仑的表现相比英伟达T4更加稳定，且延迟也有优势。

在图像分割YOLOV3算法中，昆仑虽然有优势，但优势已经不那么明显。不过欧阳剑表示百度仍然在通过持续的优化提高昆仑的性能。

他同时表示，昆仑已经在百度内部规模应用。至于对外提供AI算力，去年12月13日百度通过定向邀请的方式通过百度云提供昆仑的算力。在与欧阳剑的直播互动中，通过百度云提供昆仑AI算力目前仍然是定向邀请的方式，且主要是私有部署的方式。百度会通过定向邀请的客户的反馈消息，再通过百度云大规模向外提供昆仑的算力，但他没有给出具体的时间线。

除了通过百度云提供昆仑的算力，欧阳剑也展示了昆仑加速卡在工业智能设备中的应用。欧阳剑演示的是用CPU和昆仑加速卡去进行产品缺陷检测，昆仑可以大幅提升速度，但并没有给出具体的对比数据。

另外一个展示则是昆仑的杀手锏，那就是和国产处理器平台飞腾的适配。在2019飞腾生态伙伴大会上，欧阳剑就透露昆仑AI芯片正在适配国产飞腾服务器，做性能调优工作。在今天的线上分享中，欧阳剑展示了采用昆仑加速卡带来的图像分割速度的显著加速。

飞腾CPU处理器采用的是Armv8指令级，主要用在数据中心和云计算中心，作为国产芯的代表，昆仑选择与飞腾进行很好地适配显然是看中了国产自研芯片的大市场。

通过飞腾CPU+昆仑AI加速器的方式，双方可以更好的实现国产芯片在服务器市场的国产化，也可以视为昆仑AI芯片和加速卡未来增长的一个重要动力和杀手锏。

据悉，此次百度智能云以整机一体化方式，向微亿智造交付搭载百度昆仑芯片的百度云质检一体机。相关报道称，预计在今年以内，微亿智造的数千台智能质检设备将全部应用上百度昆仑芯片，而百度昆仑还将在更多场景中部署应用，百度的AI能力将成为“新基建”的重要基础，推动工业制造业的产业智能化升级。