达摩院认为,多元技术的协同并进驱动计算与通信的融合、硬件和软件的融合,应用需求的爆发驱动 AI 技术与行业的融合,数字技术与产业生态的融合,企业、个人与政府在安全技术与管理上的融合。科技进步与产业应用双轮驱动的融合创新已成为不可逆转的宏大趋势。
1月11日,达摩院2023十大科技趋势发布,Chiplet、云原生安全、计算光学成像等技术入选。达摩院认为,多元技术的协同并进驱动计算与通信的融合、硬件和软件的融合,应用需求的爆发驱动 AI 技术与行业的融合,数字技术与产业生态的融合,企业、个人与政府在安全技术与管理上的融合。科技进步与产业应用双轮驱动的融合创新已成为不可逆转的宏大趋势。
1.多模态预训练大模型
人工智能正在从文本、语音、视觉等单模态智能,向着多种模态融合的通用人工智能方向发展。多模态统一建模,目的是增强模型的跨模态语义对齐能力,打通各个模态之间的关系,使得模型逐步标准化。目前,技术上的突出进展来自于CLIP(匹配图像和文本)和BEiT-3(通用多模态基础模型)。基于多领域知识,构建统一的、跨场景、多任务的多模态基础模型已成为人工智能的重点发展方向。未来大模型作为基础设施,将实现图像、文本、音频统一知识表示,并朝着能推理、能回答、能总结、做创作的认知智能方向演进。
2022年,技术上的突出进展来自于BEiT-3多模态基础模型,该模型在视觉-语言任务处理上具备出色表现,包括视觉问答、图片描述生成和跨模态检索等。BEiT-3通过统一的模型框架和骨干网络(backbone)建模,能够更加轻松地完成多模态编码和处理不同的下游任务。另一方面,CLIP(Contrastive Language-Image Pre-training)的广泛应用也促进了多模态模型的技术发展。CLIP作为基于对比学习的预训练模型,负责从文本特征映射到图像特征,能够指导GAN或扩散模型(Diffusion Model)生成图像。在文生图领域,Stable Diffusion也使用了CLIP,它能够通过文本提示调整模型,并借助扩散模型改善图像质量。与此同时,开源极大的促进了多模态的融合和预训练模型的发展。通过开源来降低模型使用门槛,将大模型从一种新兴的AI技术转变为稳健的基础设施,已成为许多大模型开发者的共识。
多模态预训练模型的发展将重塑人工智能商业模式,并为人们的生产生活方式带来积极影响。对个人而言,类似CLIP的多模态模型,将使更多非技术出身的人能够表达自己的创造力,无需再借助工具和编程专业能力。对企业来说,多模态预训练模型将成为企业生产效率提升的关键。商业模式上,具备大数据、算力资源和模型开发能力的科技企业,将会成为模型服务的提供方,帮助企业将基础模型的能力与生产流程融合起来,实现效率和成本最优。
认知智能的发展,不会局限在文本或图像等单一的模态上。未来,如何针对不同模态建立更高效的模型架构和统一的骨干网络,使得大模型能够广泛地支持各种下游任务将成为主要挑战。在此基础上,更多的挑战来自于挖掘不同模态(如图像-文本,文本-自然语言,视频-文本)数据间的相关信息,并巧妙的设计预训练任务,让模型更好的捕捉不同模态信息之间的关联。
语音、视觉和多模态预训练模型将加速人工智能向通用基础模型方向演进。在这个演进过程中,深度学习与强化学习相互促进发展,融合大量行业知识,模型将具备在不断变化的环境中快速适应的灵活性。建立统一的、跨场景、多任务的多模态基础模型会成为人工智能发展的主流趋势之一。随着技术的不断成熟,大模型在开发成本、易用性、开发周期、性能上会更具优势,给产品化和商业化带来更多可能性。
2.Chiplet
Chiplet是硅片级别的“解构-重构-复用”,它把传统的SoC分解为多个芯粒模块,将这些芯粒分开制备后再通过互联封装形成一个完整芯片。芯粒可以采用不同工艺进行分离制造,可以显著降低成本,并实现一种新形式的IP复用。随着摩尔定律的放缓,Chiplet成为持续提高SoC集成度和算力的重要途径,特别是随着2022年3月份UCle联盟的成立,Chiplet互联标准将逐渐统一,产业化进程将进一步加速。基于先进封装技术的Chiplet可能将重构芯片研发流程,从制造到封测,从EDA到设计,全方位影响芯片的区域与产业格局。
Chiplet的技术核心在于实现芯粒间的高速互联。SoC分解为芯粒使得封装难度陡增,如何保障互联封装时芯粒连接工艺的可靠性、普适性,实现芯粒间数据传输的大带宽、低延迟,是Chiplet技术研发的关键。此外,芯粒之间的互联特别是2.5D、3D先进封装会带来电磁干扰、信号干扰、散热、应力等诸多复杂物理问题,这需要在芯片设计时就将其纳入考虑,并对EDA工具提出全新的要求。
近年来,先进封装技术发展迅速。作为2.5D、3D封装关键技术的TSV(Through Silicon Via,硅通孔)已可以实现一平方毫米100万个TSV。封装技术的进步,推动Chiplet应用于CPU、GPU等大型芯片。2022年3月,多家半导体领军企业联合成立了UCIe(Universal Chiplet Interconnect Express,通用Chiplet高速互联联盟)。Chiplet互联标准有望逐渐实现统一,并形成一个开放性生态体系。
面向后摩尔时代,Chiplet可能将是突破现有困境最现实的技术路径。Chiplet可以降低对先进工艺制程的依赖,实现与先进工艺相接近的性能,成为半导体产业发展重点。从成本、良率平衡的角度出发,2D、2.5D和3D封装会长期并存;同构和异构的多芯粒封装会长期并存;不同的先进封装和工艺会被混合使用。Chiplet有望重构芯片研发流程,从制造到封测,从EDA到设计,全方位影响芯片产业格局。
3.存算一体
存算一体旨在计算单元与存储单元融合,在实现数据存储的同时直接进行计算,以消除数据搬移带来的开销,极大提升运算效率,实现计算存储的高效节能。存算一体非常符合高访存、高并行的人工智能场景计算需求。在产业和资本的驱动下,基于SRAM,DRAM,Flash存储介质的产品进入验证期,将优先在低功耗、小算力的端侧如智能家居、可穿戴设备、泛机器人、智能安防等计算场景落地。未来,随着存算一体在面向云端推理的大算力场景落地,可能将带来计算架构的一场革命性变化,推动传统的以计算为中心的架构转变为以数据为中心的架构,并对云计算、人工智能、物联网等产业产生重大影响。
近年来,产业界领军企业在存算一体的前沿技术研究上持续发力。三星在顶级学术期刊Nature上发表了全球首个基于MRAM(磁性随机存储器)的存内计算研究;台积电在ISSCC上合作发表了六篇关于存内计算存储器IP的论文,大力推进基于ReRAM的存内计算方案;SK海力士则发表了基于GDDR接口的DRAM存内计算研究。学术界和产业界普遍认为存算一体有望成为突破算力性能和功耗瓶颈的技术方向之一。特别是在大规模并行计算场景中,例如 VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等,存算一体芯片具备高带宽、低功耗的显著优势。微观上,算力是一个具体的技术指标。算的快(高吞吐、低延迟)、算的准(高精准度)、算的省(低成本、低功耗)是对算力的基本要求。存算一体是从微观层面进行架构的优化,面临存储器设计和生产工艺的挑战,需要整个产业链的参与支持。
实现存算一体的技术路径主要有以下三个:技术较成熟的是近存计算,利用先进封装技术把计算逻辑芯片和存储器封装到一起,通过减少内存和处理单元的路径,以高I/O密度来实现高内存带宽以及较低的访问开销。近存计算主要通过2.5D、3D堆叠来实现,广泛应用在各类CPU和GPU上;近期投资热度较高的是存内计算,通过传统的存储介质如DRAM、SRAM、NOR Flash、NAND Flash来实现。计算操作由位于存储芯片/区域内部的独立计算单元完成,更适用于算法固定的场景;技术尚处于探索期的是基于非易失性存储器技术做的新型存储原件,比如通过忆阻器ReRAM电阻调制来实现数据存储。其他如相变存储器(PCM)、自旋磁存储器(MRAM)等,也作为存算一体新的技术路径。存算一体的计算方式分为数字计算和模拟计算。数字计算主要以SRAM作为存储器件,具有高性能、高精度的优势,更适合大算力高能效场景。模拟计算通常使用FLASH、ReRAM等非易失性介质作为存储器件,存储密度大,并行度高,更适合小算力,计算精度要求不高的场景。
目前,存算一体已经在产业细分领域掀起了创业浪潮,并受到投资界和产业界的关注和投入。存算一体在技术上向着高精度、高算力和高能效的方向发展。在资本和产业双轮驱动下,基于SRAM、NOR Flash等成熟存储器的存内计算将在垂直领域迎来规模化商用,小算力、低功耗场景有望优先迎来产品和生态的升级迭代,大算力通用计算场景或将进入技术产品化初期。基于非易失性、新型存储元件的存算一体依赖于工艺、良率的提升,走向成熟预计需要5-10年。
4.云原生安全
云原生安全是安全体系的优化和升级,进而实现云基础设施的原生安全,以及具有更强的安全能力。云原生安全是安全技术与云计算由相对松散走向紧密结合的过程。安全和合规成为云产品的内生免疫力,帮助云产品及时发现风险并实现自愈。安全技术的云化和原生化主要四个特点;
以安全左移为理念,实现产品研发、安全、运维一体化的产品安全体系,解决研发,安全,运维割裂的问题;
以统一的身份验证和配置管理为前提,实现精准授权和动态策略配置;
以纵深防御体系为架构,平台级的安全产品为依托,实现精准主动防御,解决碎片化的安全产品问题;
以安全运营为牵引,实现涵盖应用、云产品、网络等全链路的实时检测、精准响应、快速溯源和威胁狩猎。
云原生安全经历了一系列变迁:从安全保障云原生到云原生赋能安全,内涵不断扩展,逐步形成了一套涵盖基础设施、应用、数据、研发测试、安全运营等在内的防护体系。云原生应用保护平台、面向云原生的攻击面管理平台、云原生威胁检测与响应、云原生事件取证与溯源等,这一系列新型的防护措施也应运而生、快速发展,得到了业界共识。
从管理视角、运营视角和用户视角,可以看到云原生安全的三方面价值:
全链路风险可视可控。将安全和合规要求贯穿软件生产和服务全链路,及时扫描检查关键环节,避免后期处置造成被动,最大程度降低整体风险管控成本。
基础设施安全运营闭环高效。安全防护功能融合化,可以实现异常事件响应处置流程的闭环管理;策略执行自动化,可减少对安全运营人员的依赖,降低误操作概率;同时,自动阻断机制可以为应对攻击和修复争取更充分的时间。
云上客户资产全面保障。帮助客户全面、实时监测各类数据资产;在身份验证、配置管理、应用运行时监控、数据安全保护等方面提供多元化、灵活调用的安全服务。
实践中,云原生安全也面临着一系列挑战,比如在异构复杂环境中各类数字资产的监控数据如何快速、高质量的采集汇聚;云上各方如何明晰权责,形成开放协同的安全生态等等。
未来3-5年,云原生安全将更好的适应多云架构,帮助客户构建覆盖混合架构、全链路、动态精准的安全防护体系。同时配套构建起新型治理体系和专业人才体系;在安全防护效能方面,智能化技术为实现细粒度的访问鉴权、数据安全管控、风险自动识别和处置提供强有力的支持,保障用户顺畅高效使用,提供无摩擦的服务体验。同时,基于云的安全服务形式也将不断创新,云原生的安全托管,以攻促防等形式将逐步发展成熟,成为安全体系的重要组成部分。
5.软硬融合云计算体系架构
计算向以CIPU为中心的全新云计算体系架构深度演进,通过软件定义,硬件加速, 在保持云上应用开发的高弹性和敏捷性同时,带来云上应用的全面加速.
云计算从以CPU为中心的计算体系架构向以云基础设施处理器(CIPU)为中心的全新体系架构深度演进。通过软件定义,硬件加速,在保持云上应用开发的高弹性和敏捷性同时,带来云上应用的全面加速。新的体系架构下,软硬一体化带来硬件结构的融合,接入物理的计算、存储、网络资源,通过硬件资源的快速云化实现硬件加速。此外,新架构也带来软件系统的融合。这意味着以CIPU云化加速后的算力资源,可通过CIPU上的控制器接入分布式平台,实现云资源的灵活管理、调度和编排。在此基础上,CIPU将定义下一代云计算的服务标准,给核心软件研发和专用芯片行业带来新的发展机遇。
云计算的体系架构发展经历了三个阶段,已经解决了超高并发和大算力的经济性问题。第一阶段在2010年左右,以X86服务器、互联网中间件为代表的分布式架构技术为主。第二阶段在2015年左右,云厂商通过软件定义的方式,构建了虚拟私有云(VPC)和计算存储分离的池化架构。在新的池化架构之下,计算存储网络资源可以分别实现按需扩容。
目前,云计算进入第三阶段,引入专用硬件,形成软硬一体化的虚拟化架构,实现了全面硬件加速。这个阶段云计算面临的挑战,是在数据密集计算、云数据中心东西流量越来越大的趋势下,实现云计算单位成本下更高的计算性能,以及更高效的云数据中心管理。 而计算效率的提升,还需要回到芯片和系统底层中去。
以CIPU为核心的云计算体系架构,在工程实现上主要有以下三方面突破:
首先,是底层硬件结构的融合,带来全面硬件加速。基于CIPU的新架构能够向下管理数据中心硬件,配合云操作系统,对计算、存储,网络,安全进行全面加速,把IDC真正变成一台高速总线互联的超级计算机。在用户云上计算最需要的基础云网络和云存储链路上提供更低的延迟、更高的带宽和吞吐。
其次,在全链路实现硬件加速的基础上,创新地实现了eRDMA,不但能够大规模组网,还能让用户无需修改负载的代码,无感加速, 让云上的高性能计算普惠服务化成为现实。
最后,在全新的云数据中心硬件体系架构下,CIPU和服务器的系统组合,既可以一对多,也能实现多对一,高效满足云上不同计算场景下东西向流量计算配比的灵活需求。
软硬融合的云计算体系架构,保持了软件定义,在分布式架构时期构建的交付敏捷性和灵活度,池化架构时期构建的弹性、可靠性、可用性,还带来了云上应用的全面加速,显著提升了计算性能。
未来三年,云计算向以CIPU为中心的全新云计算体系架构深度演进,云上的函数计算,容器服务,数据库服务,大数据服务,AI等云服务,也将全面被CIPU加速。从购买计算资源进行自身应用加速,到全面使用云上服务,用户将获得CIPU加速带来的全面体验。从资源到服务,云计算服务的核心价值,很大程度将取决于云厂商能提供的底层计算能力和计算效率。
6.端网融合的可预期网络
可预期网络 (Predictable Fabric) 是云计算定义的,服务器端侧和网络协同的高性能网络互联系统。计算体系和网络体系正在相互融合,它通过高性能网络互联使能算力集群的规模扩展,从而构建大算力资源池,加速算力普惠化,让算力进入大规模产业应用。
可预期网络(Predictable Fabric)是由云计算定义,服务器端侧和网络协同的高性能网络互联系统。计算体系和网络体系正在相互融合,它通过高性能网络互联使能算力集群的规模扩展,从而形成大算力资源池,加速了算力普惠化,让算力走向大规模产业应用。可预期网络不仅支持新兴的大算力和高性能计算场景,也适用于通用计算场景,是融合了传统网络和未来网络的产业趋势。
网络的本质是连接。高带宽、低时延、高稳定性、少抖动一直是网络追求的目标。传统TCP网络协议栈,虽然在互联网中广泛部署和应用,但是TCP协议栈诞生时期的网络带宽和质量已经无法与如今大带宽高质量的数据中心网络相提并论。端侧和网络分层解耦,基于网络黑盒传统尽力而为(best-effort)的网络体系结构,无法满足当今大算力池化所需要的高性能网络互联需求。因此,“可预期的”高性能网络架构在大算力需求驱动下应运而生。这对于传统基于“尽力而为”的网络体系提出了新的挑战。
可预期网络以大算力为基本出发点,把端网融合作为实现方式。可预期网络摒弃传统端侧计算、存储和网络分层解耦的架构,创新地采用端侧和网络侧协同设计和深度融合的思路,构建了基于端网融合的新型网络传输协议、拥塞控制算法、多路径智能化调度、以及芯片、硬件深度定制和卸载等技术的全新算网体系。可预期网络能够大幅度提升分布式并行计算的网络通信效率,从而构建高效的算力资源池,实现了云上大算力的弹性供给。云计算重新定义的可预期网络技术体系,将对产业链上下游、芯片技术演进产生深远影响,成为算力普惠化的新范式。
算力网络的发展正在经历从0到1的过程,需要互联网科技公司和运营商共同定义。如果将算力网络作为未来的关键基础设施,它将对网络可预期性提出更高的要求。数字化社会下的算力普惠,将持续驱动数据中心网络向高性能、资源池化的云计算方向发展,这将使网络可预期技术在未来2-3年内发生质变,逐渐成为主流技术趋势。
7.双引擎智能决策
经典决策优化基于运筹学,通过对现实问题进行准确描述刻画来构建数学模型,同时结合运筹优化算法,在多重约束条件下求目标函数最优解。随着外部环境复杂程度和变化速度不断加剧,经典决策优化对不确定性问题处理不够好、大规模求解响应速度不够快的局限性日益凸显。学界和产业界开始探索引入机器学习,构建数学模型与数据模型双引擎新型智能决策体系,弥补彼此局限性、提升决策速度和质量。未来,双引擎智能决策将进一步拓展应用场景,在大规模实时电力调度、港口吞吐量优化、机场停机安排、制造工艺优化等特定领域推进全局实时动态资源配置优化。
近年来,全球性突发事件(如疫情、战争、技术管制等)频繁出现,使得外部环境变得更加复杂、不确定性更高;同时,市场不断变化、要求不断提升。企业需在纷繁复杂、动态变化的环境中,快速精准地做出经营决策。
智能决策是综合利用多种智能技术和工具,基于既定目标,对相关数据进行建模、分析并得到最优决策的过程。该过程将约束条件、策略、偏好、目标等因素转化为数学模型,并利用智能技术自动实现最优决策,旨在解决日益复杂、动态变化的经营决策问题(如打车平台派单、充电桩选址、生产排程等问题)。
随着外部环境复杂程度和变化速度不断加剧,经典决策优化的局限性愈发突现,主要体现在:一是对于不确定性问题的处理能力不足,二是对大规模问题响应不够迅速。学术界和产业界开始探索引入机器学习,构建数学模型与数据模型双引擎新型智能决策体系。机器学习基于数据驱动模型,模拟出近似解区域,缩小经典方式求解空间,可大幅提升求解效率。机器学习的优势在于可应对不确定性高、在线响应速度快的场景;劣势为学习效率慢、成本高,且求解的质量不够高。
双引擎智能决策尚处于起步阶段。众多决策优化场景(如交通领域港口吞吐量优化、机场停机安排等,制造领域工艺优化、产销协同等),开始尝试用双引擎方式在动态变化中快速找到最优解。最典型的、也最具挑战的场景是电力调度场景。电力调度场景转化为智能决策问题可描述为:
目标:在满足电网安全稳定运行前提下,降低购电成本或者实现全社会福利最大化,并促进新能源消纳。
约束条件:1)必须满足所有安全约束,包括节点电压、线路与断面热稳定限额;2)发用电负荷平衡约束;3)满足物理特性,如机组爬坡、开停机曲线、梯级水电等。
决策难点:1)调度业务非常复杂,涉及海量决策数据:目前省级变量与约束达千万级别;随着新能源快速装机以及引入负荷侧参与调节,直到实现双碳目标全网变量与约束预计将超过十亿级;2)新能源发电占比将越来越大,其波动性和随机性将对模型驱动的数学优化效率带来极大挑战;3)机器学习难以保证满足所有安全约束。
双引擎智能决策将机器学习与底层优化技术深度耦合在了一起,在满足各类安全约束条件的情况下,将计算效率提高10倍以上,有望实现秒级调度优化,突破新型电力系统电网调度追风、逐日决策的性能瓶颈。
未来,双引擎智能决策将进一步拓展应用场景,在特定领域实现更多主体、更大范围的资源配置优化,进而推进全局实时动态的资源配置优化。
8.计算光学成像
计算光学成像是一个新兴多学科交叉领域。它以具体应用任务为准则,通过多维度获取或编码光场信息(如角度、偏振、相位等),为传感器设计远超人眼的感知新范式;同时,结合数学和信号处理知识,深度挖掘光场信息,突破传统光学成像极限。目前,计算光学成像处于高速发展阶段,已取得许多令人振奋的研究成果,并在手机摄像、医疗、无人驾驶等领域开始规模化应用。未来,计算光学成像有望进一步颠覆传统成像体系,带来更具创造力和想象力的应用,如无透镜成像、非视域成像等。
随着传感器、云计算、人工智能等新一代信息技术的不断演进,新型解决方案逐步浮出水面——计算光学成像。计算光学成像以具体应用任务为准则,通过多维度获取或编码光场信息(如角度、偏振、相位等),为传感器设计远超人眼的感知新范式;同时,结合数学和信号处理知识,深度挖掘光场信息,突破传统光学成像极限(如图1所示)。
图1:传统光学成像(左)和计算光学成像(右) (图片来源:阿里达摩院)
计算光学成像是一个新兴多学科交叉领域,早期概念在上个世纪70年代中期才逐步形成。随着信息技术的蓬勃发展,计算光学成像已成为国际研究热点。由于计算光学成像研究内容覆盖范围广,目前还没有一个比较明确的分类方法。按照计算成像技术所解决的应用问题来分类,可以大致分为以下三类:(1)功能提升:对传统方式无法获取的光学信息,如光场、偏振、相干度等进行成像或测量;(2)性能提升:即提升现有成像技术的性能指标,如空间分辨率、时间分辨率、景深、复杂环境鲁棒性等;(3)简化与智能化:通过单像素、无透镜等特定技术简化成像系统,或者以光速实现特定人工智能任务(如图2所示)。
图2:计算光学成像技术分类(图片来源:阿里达摩院)
计算光学成像技术现处于高速发展阶段,还需克服诸多挑战:首先,需以传感器为中心重新设计光学系统;其次,由于需要获取多维度光学信息,需引入新型光学器件和光场调控机制,随之而来的是更多的硬件成本和研发/调试时间成本;再次,为了使计算成像硬件和软件有更好的协同,则需重新开发算法工具;最后,对算力要求非常高,对应用设备芯片及其适配性提出更高要求。
未来,计算光学成像将进一步颠覆传统成像体系,带来更具创造力和想象力的应用。元成像芯片可实现大范围无像差三维感知,有望彻底解决手机后置摄像头突出的问题。无透镜成像(FlatCam)能够简化传统基于透镜的相机成像系统,进一步减小成像系统体积并有望用于各类可穿戴设备。此外,利用偏振成像技术能够透过可见度不高的介质清晰成像,实现穿云透雾。还有非视域成像,能够通过记录并解析光传播的高速过程来对非视域下目标进行有效探测,实现隔墙而视,在反恐侦察、医疗检测等领域具有广泛的应用价值。
9.大规模城市数字孪生
城市数字孪生自2017年首度被提出以来,受到广泛推广和认可,成为城市精细化治理的新方法。近年来,城市数字孪生关键技术实现了从量到质的突破,具体体现在大规模方面,实现了大规模动态感知映射(更低建模成本)、大规模在线实时渲染(更短响应时间),以及大规模联合仿真推演(更高精确性)。目前,大规模城市数字孪生已在交通治理、灾害防控、双碳管理等应用场景取得较大进展。
城市数字孪生旨在以城市为对象,在数字世界建设与物理世界1:1的数字映射,进而通过数字映射进行多学科机理与仿真推演,并与物理世界进行实时双向同步。近两年,精准映射、生成渲染、仿真推演等城市数字孪生关键技术实现了从量到质的突破,具体体现在大规模上,分别实现了大规模动态感知映射、大规模在线实时渲染,以及大规模联合仿真推演。
在精准映射方面,与耗人、耗时、耗财力的传统测量测绘方式不同,综合运用遥感、雷达、视觉、定位及其它多种传感器及存量测绘数据,以更低成本实现对城市静态部件,以及动态对象(如人、车等)进行位置、状态等多属性实时感知。未来,通过汇聚城市天空地多维度、各类型传感器数据,再结合AI感知能力,可融合提取同一实体的多源异构数据、构建多个实体之间的内在关系,在数字世界中进行大规模、低成本、统一、实时、精准的映射表达。
在生成渲染方面,基于精准映射的数据基础,结合AIGC(AI Generated Content)与游戏大世界生成PGC(Professional Generated Content)等技术能力,可实现分层次、分尺寸、多分辨率城市级三维场景模型的自动化生成,以及支持多人在线、互动式大规模实时渲染。
在仿真推演方面,将多学科、大规模的机理与仿真模型联合作用于同一数字大世界,形成“仿真机理元宇宙”,构建虚实互动、双向调控机制。关键技术包括:1)仿真系统云原生化,基于云原生超算调度和求解器,可大幅缩短仿真计算时间,实现城市级场景、百万级以上实体规模实时计算响应;2)统一接口融合计算,多种机理模型及仿真模型能进行实时融合计算,形成多仿真联合服务能力。
在技术推动和需求牵引的共同作用下,大规模城市数字孪生已在交通治理、灾害防控、双碳管理等应用场景取得较大进展。如在交通治理方面,在城市高精路网、水网、河道、车辆等实体三维建模及实时渲染的基础上(建模成本降低90%+、时间从数月缩短到数天),通过联合道路交通流、城市内涝积水、自动驾驶、人群移动等仿真模型,实现对城市大型活动现场人群疏散引导、交通管控策略、天气情况影响、公共交通供给等全方位策略预案的孪生演练与效果评估(针对应急事态做到“ 1分钟启动预案 ”、“ 5分钟到达现场 ”;大型赛事“ 1小时疏散 ”)。
基于数字孪生的智慧城市市场空间十分广阔。据IDC预测,到2025年智慧城市投资规模将超过千亿美元,5年复合增长率超过30%。目前,城市数字孪生面临的最大瓶颈,在于城市级大规模对象实体孪生以及业务流程孪生的城市孪生体尚未完全搭建起来。城市数字孪生将在大规模特征的基础上,继续向立体化、无人化、全局化方向演进。
10.生成式AI
生成式AI(Generative AI 或 AIGC)使用各种机器学习算法,从数据中学习要素,使机器能够创建全新的数字视频、图像、文本、音频或代码等内容。它创建出的内容与训练数据保持相似,而非复制。它的发展得益于近年来大模型在基础研究尤其是深度学习上的突破,真实数据的积累和计算成本的下降。在过去的这一年,生成式AI将人工智能的价值聚焦到“创造”二字,这标志着人工智能开始具备定义和呈现新事物的能力。
过去一年,生成式AI的进展主要体现在如下领域:
图像生成领域的进展来自扩散模型(Diffusion model)的应用,以DALL·E-2、Stable Diffusion为代表。扩散模型是一种从噪声中生成图像的深度学习技术。扩散模型技术的背后,是更精准理解人类语义的预训练模型、以及文本与图像统一表示模型(CLIP)的支撑。它的出现,让图像生成变得更具想象力。
自然语言处理(NLP)领域的进展来自于基于GPT3.5的ChatGPT(Generative Pre-trained Transformer)。这是一种基于互联网可用数据训练的文本生成深度学习模型,用于问答、文本摘要生成、机器翻译、分类、代码生成和对话AI。得益于文本和代码相结合的预训练大模型的发展,ChatGPT引入了人工标注数据和强化学习(RLHF)来进行持续训练和优化。加入强化学习后,大模型能够理解人类的指令以及背后的含义,根据人类反馈来判断答案的质量,给出可解释的答案,并对于不合适的问题给出合理的回复,形成一个可迭代反馈的闭环。
代码生成领域的进展来自代码生成系统AlphaCode和Copilot。2022年2月,Deepmind推出了他们的最新研究成果AlphaCode。它是一个可以自主编程的系统,在 Codeforces 举办的编程竞赛中,超过了 47% 的人类工程师。这标志着 AI 代码生成系统,首次在编程竞赛中,达到了具有竞争力的水平。 基于开源代码训练的Copilot开始商业化,作为订阅服务提供给开发者,用户可以通过使用Copilot自动补全代码。 Copilot作为一个基于大型语言模型的系统,尽管在多数情况下仍需要人工二次修正,但在简单、重复性的代码生成上,将帮助开发者提升工作效率,并给IDE(集成开发环境)行业带来重大影响。
随着内容创造的爆发式增长,如何做到内容在质量和语义上的可控,成为可控式生成,将是生成式AI面临的主要挑战。在产业化方面,降成本仍是关键挑战。只有像ChatGPT这样的大模型训练成本和推理成本足够低,才有可能规模化推广。此外,数据的安全可控、创作版权和信任问题也需要随着产业化加快逐一解决。
未来三年,生成式AI将步入技术产品化的快车道,在商业模式上会有更多探索,产业生态也会随着应用的普及逐步完善。届时,生成式AI的内容创造能力将达到人类水平。拥有数据、计算能力、产品化经验的大型科技公司将成为生成式AI落地的主要参与者。基于生成模型的计算基础设施和平台会逐步发展起来,模型变成随手可得的服务,客户不需要部署和运行生成式模型的专业技能就可以使用。生成模型将在交互能力、安全可信、认知智能上取得显著进展,以辅助人类完成各类创造性工作。
精彩评论