从专用串行数字接口 (SDI) 的点对点连接转到面向媒体内容交换和协作的以太网 IP 网络,这一颠覆整个广播媒体制作供应链的演进趋势仍在继续。现在,不断发展并日臻成熟的 IP 技术已可支持基于文件的视频制作,其进步之快,已将实时视频的制作、计时和同步囊括其中。
要满足实时视频的制作要求,仍需克服诸多挑战,包括但不限于互操作性、性能、时延和连接能力。
当前,从专有硬件转向基于计算机的商用现货 (COTS) 系统和设备始终保持着快速发展的态势。IP 媒体技术涉及网络、服务器、存储和应用的各个方面。
实时 IP 视频制作已引入新的网络设计与拓扑,以满足通过网络进行实时媒体传输的任务关键型要求。这些新的要求正在逐渐突破 COTS 硬件架构现有范式的限制,不断增加的媒体处理需求也随之而来,因此使用特定的硬件加速器非常必要。
英特尔作为奥运会和残奥会的官方处理器合作伙伴,与奥林匹克广播服务公司 (OBS) 开展合作,利用可跨多个芯片平台的多种技术和完整的软件堆栈,共同定义了一个参考架构,解决上述全新挑战,为实时视频制作工作流程提供支持。
我们将展示2022年北京冬奥会期间首次试用这一全新架构的相关情况,并提供产品路线图,以便随着时间的推移,在未来更多活动中扩大这项新技术的使用范围和功能。
“英特尔与奥林匹克广播服务公司持续开展合作,共同定义了暂用名为‘虚拟化外场转播车(vOB)’的软件定义外场转播车参考架构。”
双方合作的目标是借助使用 COTS 硬件的通用基础平台,构建基于软件的完全虚拟化架构,同时保留为惯用传统广播设备的广播工程师和运营商所熟悉的用户体验。
根据相关标准打造的平台支持在同一物理平台上部署来自一家或多家供应商的多个软件应用。这种方法有助于实现物理硬件资源的轻松扩展,以匹配各种赛事转播的复杂性和计算要求。
该参考架构在2022年冬奥会冰壶比赛中进行了试点,全面反映了可供国际广播商使用的标准广播制作流程。
如果您正在参与下一代媒体处理基础设施的架构搭建、设计或选择,请继续阅读,进一步了解如何利用英特尔® FPGA 实现视频和音频处理应用,以便在进行复杂的实时视频制作时能够满足严苛的实时要求。
挑战
采用 SDI 基带路由器、同轴电缆和 BNC 连接器的传统广播基础设施目前正在向使用 IP 网络交换机和软件定义网络 (SDN) 控制器的以太网过渡。随着以太网交换机支持的传输速度不断升级,汇聚型无阻塞交换机和网络吞吐量的性能也在不断提升,为利用IP/以太网经济高效地传输关键性广播应用奠定了坚实的基础。这种方法不仅仍能提供与传统 SDI 操作相同的稳健性和稳定性,还具备更加出色的敏捷性、灵活性和可扩展性,可满足不断发展的媒体格式要求。
为应对这一挑战,多家企业和机构通过合并媒体、互联网和 IT 领域的一系列标准、规范、协议和推荐方案,共同建立了行业合作伙伴关系,并由此审批并通过了多项有关实时视频制作的新标准。SMPTE ST-2110 Professional Media Over Managed IP Networks Suite of Standards(美国电影电视工程师协会 ST2110 经托管 IP 网络传输的专业媒体的相关标准)和 AMWA NMOS(高级媒体工作流程协会的网络媒体开放规范)是其中两个主要标准。
就使用 ST2110 规范的用例而言,所有媒体要素(视频、音频、数据、控制和同步)都需在网络中以数据包的形式进行传输。
虽然这在结构上似乎与常规的以太网网络十分相似,但要成功地实现 ST2110 工作部署,需要注意一些特殊要求,例如流量整形和无中断故障切换 (hitless protection switching)。
就流程而言,管理、处理和转换多个同步的高分辨率视频和高质量音频流通常是实时视频制作流程的关键环节。完成此类任务需要有高性能平台提供足够的算力和带宽,这样才能够以尽可能低的时延生成视频结果。
为完成上文提及的任务,可在通用 COTS 服务器中添加灵活的媒体加速器,以此提高处理能力,同时降低功耗。英特尔® FPGA可以提供强大的并行处理能力和高内存带宽,是实现此类媒体加速器的理想选择。在 COTS 服务器中添加灵活的媒体硬件加速器可避免对软件负载条件的依赖,从而降低确定性时延。这种方法还能够节省可用于用户应用的宝贵计算资源。
由于 FPGA 能够在数毫秒内实现现场重新编程,因此可根据具体用例定制和部署不同的音频/视频处理流水线,使 FPGA 成为在通用计算服务器中添加灵活的媒体加速器的理想解决方案。
解决方案FPGA 中的 ST2110 实现
● SDI-IP 网关
虽然现阶段已能够使用基于“全 IP”的基础设施,但大多数系统仍需支持各种基于 SDI 的传统设备,而将这些设备转换为适应网络环境的运行模式绝非易事。面临的挑战在于找到真正高效的方法,弥合两种运行环境间的差距,同时保留二者的长处和优势。
对于 SDI 或 IP 混合演播室制作系统而言,SDI-IP 网关在不同 SDI 和 IP 矩阵间的音频、视频和辅助数据传输中发挥着至关重要的作用。它们可将一路或多路要素流聚合至 10 GbE、25 GbE 甚至更高带宽的网段中,如 50 GbE 和 100 GbE。SDI-IP 网关还支持信号缓冲,从而确保妥善实现时间同步,并在不同的 IP 流间顺畅传输。此外,这些网关也许还包括可节省网络带宽的夹层或帧内编解码器。
图 1. 多通道 SDI-ST2110 网关在单个 FPGA 上的实现。
SDI-IP 网关具备连接分布式演播室或分布式设施所需的必要功能,以及跨越不同精确时间协议 (PTP) 的能力。对 SDI 或单独的音频流、视频流和辅助数据进行 IP 分组基于的是 SMPTE ST 2110 标准。
图 1 所示为 SDI-IP 网关系统的概念示意图。
● ST2110 网卡 (NIC)
随着我们转向全 IP 部署,有关支持实时媒体传输的新要求也随之出现。我们需要具有视频感知架构的 COTS ST2110 网卡,该种网卡要能提供广播设备所需的 24/7 可靠性和互操作性,同时仍具备 IP 基础设施应有的灵活性和可扩展性,包括标准的网络堆栈功能。
这些特定的网络适配器具备完全卸载 ST2110 协议下相关操作的能力,因此使原始设备制造商 (OEM) 的软件解决方案能够提供可靠且可扩展的基于 COTS 系统的 10 GbE、25 GbE 和 100 GbE IP 解决方案。此类网卡实际上卸载了 ST2110 媒体传输所需的全部数据包处理操作,包括音频、视频和辅助数据,以及内置于网卡的数据冗余和数据包步调控制 (packet pacing) 功能,从而 释放系统资源。软件解决方案能够在任何条件下提供有保证的窄位宽数据传输,且不受 CPU 负载与操作系统 (OS) 交互的影响。
图 2 所示为基于 FPGA 的 ST2110 网卡简化示意图。不同的选择方案处理能力也不同,最高可支持 8 路 4k60 或 32 路 1080p60 媒体流的输入和输出,以及 100 Gbps 链路,且 CPU 使用率几乎为零。
由于这些 ST2110 网卡通常部署在支持虚拟化流程(在这些流程中,终端应用将会运行在虚拟机和/或容器内)的服务器中,因此必须支持单根 I/O 虚拟化 (SR-IOV) 的虚拟功能 (VF)。由于可以选择在硬核芯片中,而非软核逻辑结构中实现连接到 SR-IOV VF 的直接内存访问 (DMA) 通道,因此可为终端应用在逻辑和功耗方面带来多种好处。
图 2. 基于 FPGA 的网卡(可从主机服务器 CPU 完全卸载 ST 2110 协议下的相关操作)。
面向视频/音频处理的 FPGA
● 视频混合器、重放、多视图查看器、缩放器、HDR 处理等
在为广播设施构建解决方案或为直播活动整合各种音频/视频产品时,系统集成商常常需要在不同的协议之间“搭建桥梁”,或在设备之间进行视频格式转换。英特尔具有丰富的知识产权(IP)、参考设计和硬件,可加快解决方案的上市速度。英特尔还能够提供专用标准产品 (ASSP) 或图形处理单元 (GPU) 无法实现的性能、差异化功能和集成功能。
上/下/交叉转换器具有视频处理和缩放功能,可在不同的色彩空间、根据不同的长宽比要求,在标清 (SD)、高清 (HD) 和 4K 之间实现格式转换。这些转换器适配 SDI、高清多媒体接口 (HDMI)、DisplayPort 和 IP 等不同的连接接口标准。一般来说,视频处理卡内包含多种算法。而且这些视频处理卡可将多通道视频处理流水线与连接接口集成在一起,并可在制作环境中提供基于 PCIe 的流式 DMA 访问主机处理。
图 3. FPGA 支持全面的连接技术与视频处理流水线的集成。
● 多通道音频处理
英特尔® FPGA 具备出色的数字信号处理 (DSP) 性能,可满足音频处理、接口连接、压缩、嵌入和转换等多种需求。FPGA 架构固有的并行特征可同时处理多个音频,实现资源的高效利用。英特尔® FPGA 具有出色的性能,这意味着其所支持的音频处理能力将远远超过大多数应用的需求。
英特尔所提供的架构有着经济高效、灵活多变的特性,是 ASSP 和 DSP 的理想替代方案;此外,英特尔还与合作伙伴生态系统携手,提供音频和语音编解码器、回音消除器等工具。在英特尔平台的助力下,工程师们能够迅速将音频功能集成到各自的产品中,实现产品差异化、增加通道密度并加快产品的上市速度。设计师能够充分利用英特尔® FPGA 的 DSP 性能、带宽和其他功能特性来实现片上系统设计,消除单独使用组件来执行语音处理任务的需求,进而减少成本,特别是多通道音频应用的成本。
值得注意的一点是,FPGA 能够将连接和处理功能整合在一起。因此,整合媒体传输连接技术(例如 ST2110)可为特定的音频和视频应用带来助益,便于高效构建小巧而可靠的解决方案。
图 4 所示为能够集成多个 I/O 接口功能的音频处理卡,支持在单个设备中实现端到端的音频解决方案。
图 4. FPGA 支持全面的连接技术与音频处理流水线的集成。
● 面向实时视频制作的低时延夹层压缩技术
采集分辨率和视频质量在不断提升。此外,经生成、收集和传输而来的大量原始数据也越来越难管理。
随着市场对更高分辨率、更高帧率和更智能的分发系统的需求不断增长,传输经过压缩的视频正逐渐成为主流方案。
如此一来,就更加需要标准化的压缩解决方案,助力设计人员以低时延和低实现复杂性,管理更高像素、节省更多成本与电能、简化连接,同时保证画质和音质。
FPGA 架构非常适合夹层编解码器的实现(JPEG-XS、VC-2、 SpeedHQ 等),能够利用并行处理和自有内存,在无需外部帧缓冲的前提下,构建低时延、小巧紧凑的解决方案,可谓应对上述挑战的理想选择。
面向摄像应用的 FPGA
随着成像技术在分辨率和帧率方面不断提升,已超过高清和每秒60 帧 (60 fps) 标准并要求获得更高的动态范围支持,因此必须在空间受限的摄像机和摄录机设计中进行实时图像和视频处理。此外还需要诸如视频分析、元数据采集等新增功能的加入,以使工作流程更高效并实现内容创收。传统的解决方案通常会涉及ASIC、处理器和 FPGA,这会使系统更为复杂,同时增加功耗并产生更多热量。
英特尔® FPGA 将可接入 4K 和 8K 传感器的高速连接与高度灵活的图像和视频处理流水线集成在一起,并可在需要时添加无损或有损压缩编码功能(通常是无损压缩编码用于演播室环境,有损压缩编码用于电子新闻采访摄像机的无线传输,以及 SD 卡或SATA 硬盘的本地存储),同时还支持多种输出连接标准。现在,只需一台设备即可支持上述所有功能,大大节省了空间、降低了成本与功耗。
图 5. 功能全面的高端摄像机可在单个 FPGA 中高效实现。
配备 4K,甚至是 8K 图像传感器的演播室摄像机能够通过高带宽电缆(12G-SDI、25/100 GbE 电缆或光纤),为演播室广播节目和运动赛事采集和放送高清、高帧率 (HFR)、高动态范围 (HDR) 和广色域 (WCG) 视频。图 5 所示为典型的演播室摄像系统云台。
解决方案组成部分与路线图
英特尔® Agilex™ 7 FPGA 和英特尔® Agilex™ 5 FPGA 赋能 8K 视频数据路径
几十年来,视频分辨率不断提高,从标清 (720x486) 到高清(1920x1080),再到超高清 (UHD) 4K (3840x2160) 和 8K(7680x4320),甚至更高。应对这种带宽不断增加的情况所需的时钟频率也相应提高。标清视频的分辨率只要求像素时钟频率达到 27 MHz,这在今天很容易实现,但在上世纪 90 年代初刚推出时却很难实现。高清视频的分辨率要求时钟频率达到 74.25MHz 或 148.5 MHz,这在当时虽可实现但也充满了挑战。如今,4K 视频的分辨率要求像素时钟频率达到 594 MHz,这已能在英特尔新推出的 FPGA 家族产品中实现,而 8K 视频则需要高达2,376 MHz 的像素时钟频率,这么高的时钟频率迫使视频工程师不得不寻找新的设计路径。
为达到这种高像素时钟频率,需对视频 IP 核(如缩放器或色彩空间转换器)进行重新设计,以便能在每个时钟周期内处理更多像素。在大多数情况下,这意味着需要在 IP 核内复制整个视频流水线。从单像素并行 (pixel-in-parallel, PIP) 处理到支持 4K视频的双像素并行处理,所需使用的 FPGA 资源也将翻倍。早前采用 8K 视频设计的现有用例往往依靠类似 8 像素并行处理的技术,导致 FPGA 资源使用量明显增加。
英特尔® Agilex™ 7 FPGA 和英特尔® Agilex™ 5 FPGA 是基于10 纳米 SuperFin 以及英特尔 7 制程工艺打造的英特尔® FPGA全新家族,相比之前的产品家族,可在更高的频率下运行,助力FPGA 开发人员大幅降低特定逻辑功能的资源占用率和功耗。它们的时钟频率可达到 600 MHz,并且往往无需对现有的寄存器传输级 (RTL) 代码进行大量重写。这对视频设计尤其有益,因为这可使帧率为 60 fps 的 4K 视频得到单像素并行处理。
图 6. 英特尔® Agilex™ 7 FPGA 和英特尔® Agilex™ 5 FPGA 的高性能逻辑结构支持以高时钟频率执行视频处理,可优化占用面积,从而节约资源与降低功耗。
图 7. 借助 VVP 库,您可在英特尔® FPGA 上轻松创建复杂的视频处理流水线。
作为视频处理构件的 VVP
视频与视觉处理 (VVP) 库集合了 20 多项 IP 功能,并可支持所有英特尔® FPGA 产品。它所提供的设计理念适用于快速创建全新设计,可轻松集成自定义增值功能以及包括 HDMI、DisplayPort、12G-SDI、SMPTE 2110 和 MIPI 在内的视频连接 IP 核。
该库支持多种分辨率、帧率 (fps)、位色 (bpc)(1080p/4K/8K、适用 HDR、120+ fps、16 bpc),可提供远超大多数 ASSP 的视觉质量。
使用英特尔® OFS 与英特尔® FPGA SmartNIC N6000- PL 平台加速虚拟化 FPGA 开发
英特尔® 开放式 FPGA 堆栈(Intel® Open FPGA Stack,英特尔®OFS)是一种可扩展、可访问源代码的软硬件基础设施,通过Git 库交付,支持自定义符合自身特殊要求的加速平台解决方案。这款第二代软硬件基础设施可适配英特尔® Stratix® 10 FPGA、英特尔® Agilex™ 7 FPGA 和英特尔® Agilex™ 5 FPGA 和未来的英特尔® FPGA 家族产品。该基础设施仅限英特尔和精选第三方平台使用,旨在解决与设计基于 FPGA 的加速平台解决方案相关的挑战。
英特尔® OFS 为开发自定义 FPGA 平台提供了一条高效路径,因其能够:
提供 FPGA 可合成代码、仿真环境及合成或仿真脚本。
使用符合行业标准的 Arm AMBA 4 AXI 接口、工作负载示例和 AFU 仿真功能,加速工作负载开发。
利用已提交上传至 Linux 内核的软件驱动程序以及 OPAE 软件和库。
英特尔® FPGA SmartNIC N6000-PL 平台 [此前代号为 ArrowCreek 的加速开发平台 (ADP)] 采用双 PCIe 卡设计,配备英特尔®Agilex™ 7 FPGA 和英特尔® Agilex™ 5 FPGA,曾被原始设计制造商 (ODM) 合作伙伴和/或客户用作针对不同市场打造的量产卡的基础。不同设计之间的关键差异在于其中一款包含集成式双端口 100 GbE 英特尔® 以太网控制器 E810。
图 8. 英特尔® OFS 提供一整套软硬件资源,加速虚拟化 FPGA 视频处理应用的开发。
图 9. 英特尔® FPGA SmartNIC N6000-PL 平台是一款即插即用的 PCIe 卡,搭载英特尔® Agilex™ 7 FPGA 和英特尔® Agilex™5 FPGA,由英特尔® OFS 提供全面支持。
英特尔® FPGA SmartNIC N6000-PL 平台提供了一个参考硬件平台,使客户在产品进入完全量产前,能够在实际硬件中开发、调整和优化特定的工作负载。这些客户通常处于以下情形:他们希望制造具备量产质量的卡,但在确定最终设计之前首先想优化其 IP。
图 10. 英特尔® FPGA SmartNIC N6000-PL 平台板卡实物图。
英特尔® FPGA SmartNIC N6000-PL 平台是开发平台家族中首款覆盖多个细分市场和多种解决方案的产品。
英特尔® FPGA SmartNIC N6000-PL 平台包含多种基于英特尔®OFS 的 FIM 设计,适配英特尔® Agilex™ 7 FPGA 与英特尔®Agilex™ 5 FPGA,可支持多种内存、以太网和 PCIe 系统配置。我们推出英特尔® OFS 的主要目的是通过提供可访问源代码的硬件、开源的软件和仿真基础设施,让您能够根据自身平台应用的需求轻松进行自定义设置,进而加快产品上市。
图 11. 英特尔® OFS 所含不同子模块的详细示意图。
总结
英特尔® FPGA 可提供出色的架构、计算能力和能效,满足实时视频制作工作流程的多种要求。英特尔® FPGA 不仅能够使用不同的连接技术和视频/音频处理构件来实现功能全面的视频处理流水线,还能通过动态地重新配置更优的数据路径,为低时延实现方案提供支持。英特尔可提供诸多适配组件,从芯片(英特尔®Agilex™ 7 FPGA 和英特尔® Agilex™ 5 FPGA)到 IP(VVP 和连接技术),再到支持 COTS/虚拟化流程的完整平台(英特尔® FPGA SmartNIC N6000-PL 平台和英特尔® OFS),不一而足,满足用户各种需要。
精彩评论