Google设计了自己的新处理器Argos视频(转)编码单元(VCU:video(trans)codingﻪunits),他们推出这个芯片的目的只有一个:那就是处理视频。高效的新芯片使这家技术巨头能够用自己的芯片替换数百万个英特尔CPU。
多年来,英特尔内置于其CPU中的视频解码/编码引擎一直主导着市场,因为它们提供了领先的性能和功能,并且易于使用。但是定制的专用集成电路(ASIC)ﻪ的性能往往优于通用硬件,因为它们仅针对一种工作负载而设计。因此,谷歌转而为YouTube的视频处理任务开发自己的专用硬件,并取得了很好的效果。
然而,英特尔可能会利用其最新技术来赢回谷歌的专业视频处理业务。
大量视频需要新硬件
据统计,用户每分钟向YouTube上传超过500小时的各种格式的视频内容。Google需要将该内容快速转码为多种分辨率(包括ﻪ144p、240p、360p、480p、720p、1080p、1440p、2160p和4320p)和数据高效格式(例如,H.264、VP9或ﻪAV1),这就需要强大的编码能力。
从历史上看,谷歌有两种转码/编码内容的选择。第一个选项是英特尔的视觉计算加速器(VCA),它包含三个XeonE3CPU,内置IrisProﻪP6300/P580GT4e集成图形内核和先进的硬件编码器。第二种选择是使用软件编码和通用英特尔至强处理器。
谷歌认为,对于新兴的YouTube工作负载来说,这两种选择都不够节能——VisualComputingAcceleratorﻪ本身就相当耗电,而扩展至强CPU的数量本质上意味着增加服务器的数量,这意味着额外的功率和数据中心占用空间。因此,谷歌决定采用定制的内部硬件。
谷歌的第一代ArgosVCU并没有完全取代英特尔的中央处理器,因为服务器仍然需要运行操作系统并管理存储驱动器和网络连接。在很大程度上,谷歌的ﻪArgosVCU就像一个总是需要一个CPU的GPU。
谷歌的VCU与我们在GPU中看到的流处理器不同,它集成了十个H.264/VP9编码器引擎、几个解码器内核、四个LPDDR4-3200ﻪ内存通道(具有4x32位接口)、一个PCIe接口、一个DMA引擎和一个用于调度目的的小型通用内核。除了内部设计的编码器/转码器外,大多数IPﻪ都从第三方获得许可,以降低开发成本。每个VCU还配备了8GB的可用ECCLPDDR4内存。Google的VCUﻪ背后的主要思想是将尽可能多的高性能编码器/转码器放入单个芯片中(同时保持节能),然后将VCU的数量与所需的服务器数量分开扩展。谷歌在一块板上放置两个ﻪVCU,然后在每个双插槽英特尔至强服务器上安装10个卡,大大提高了公司每个机架的解码/转码性能。
提高效率导致从至强迁移
谷歌表示,与英特尔Skylake驱动的服务器系统相比,其基于VCU的机器在性能/TCO计算效率方面实现了高达7倍(H.264)和高达33ﻪ倍(VP9)的改进。这一改进将VCU的成本(与英特尔的CPU相比)和三年的运营费用考虑在内,这使得VCU成为视频巨头YouTubeﻪ的轻松选择。
CPU、GPU和配备VCU的系统中的离线双通道单输出(SOT)吞吐量:
从Google分享的性能数据来看,很明显单个ArgosVCU比H.264中的2路IntelSkylakeﻪ服务器快。但是,由于可以在这样的服务器中安装20个VCU,从效率的角度来看,VCU胜出。但对于要求更高的VP9编解码器,谷歌的VCUﻪ似乎比英特尔的双路至强快五倍,因此提供了令人印象深刻的效率优势。
由于谷歌多年来一直在使用其ArgosVCU,它显然用运行自己芯片的机器取代了许多基于Xeon的YouTubeﻪ服务器。很难估计谷歌实际更换了多少至强系统,但一些分析师认为,这家科技巨头本可以将数百万个英特尔CPU换成自己的ﻪVC。即使这个数字被高估了,我们仍然在谈论数百万个单位。
由于谷歌的其他服务需要大量处理器,因此该公司从AMD或英特尔购买的CPUﻪ数量可能仍然非常高,并且不会很快减少,因为谷歌自己的数据中心需要数年时间——级系统级芯片(SoC)将准备就绪。
还值得注意的是,目前谷歌为了尝试使用创新的编码技术(例如,AV1),即使是YouTube也需要使用通用CPU,因为Argosﻪ不支持编解码器。此外,随着更高效的编解码器的出现(这些对计算能力的要求往往更高),谷歌将不得不继续使用CPUﻪ进行初始部署。具有讽刺意味的是,专用硬件的优势在未来只会越来越大。谷歌已经在开发支持AV1、H.264和VP9编解码器的第二代ﻪVCU,因为它需要进一步提高其编码技术的效率。目前尚不清楚何时部署新的VCU,但很明显该公司希望尽可能使用自己的SoC而不是通用处理器。
英特尔并未停滞不前
不过,英特尔并没有停滞不前。该公司基于DG1Xe-LP的四芯片SG1服务器卡可以解码多达28个4Kp60流以及转码多达12ﻪ个同时流。从本质上讲,英特尔的SG1与谷歌的ArgosVCUﻪ所做的完全一样:将视频解码和转码性能与服务器数量分开,从而减少用于视频应用的数据中心所需的通用处理器数量。
凭借即将推出的单块Xe-HPGPU,英特尔将同时提供10个高质量4Kp60流的转码。请记住,某些Xe-HPGPUﻪ将扩展到四个区块,并且每个系统可以安装一个以上的GPU,英特尔市场领先的媒体解码和编码能力只会变得更加稳固。
概括
Google已成功构建了出色的H.264和支持VP9的视频(转)编码单元(VCU),与英特尔现有的CPUﻪ相比,它可以在视频编码/转码工作负载方面提供显着更高的效率。此外,VCU使Google能够独立于服务器数量扩展其视频编码/转码性能。
然而,英特尔已经拥有其Xe-LPGPU和SG1ﻪ卡,它们也提供了一些重要的视频解码和编码功能,因此英特尔仍将在具有繁重视频流工作负载的数据中心取得成功。此外,随着英特尔Xe-HPGPUﻪ的出现,该公司有望巩固其在该市场的地位。
精彩评论