当热量成为系统问题时,需要尽早解决。
从数字手表到数据中心,热量已成为各种形式的半导体的主要关注点,并且在热量特别难以消散的高级节点和高级封装中,它正成为一个更大的问题。
FinFET和GAA FET的基极温度可能与晶体管结构顶部的温度不同。它们还可能因设备的使用方式、使用频率和使用地点以及特定设计中使用的导线直径,甚至芯片或封装的特定区域而变化。由于某些电路运行得太热,系统会降低性能并不罕见。
此外,热量会导致电路过早老化和过热 DRAM 中的数据丢失。它可以使变薄的晶圆和中介层翘曲。并且它会因不同材料之间的不同膨胀和收缩而产生机械应力,从而导致从芯片角落处的焊球破裂到这些芯片内的结构坍塌等一系列问题。
Fraunhofer IIS 自适应系统部工程部虚拟系统开发组经理 Christoph Sohrmann 说,除了肉眼可见的情况外,量子水平上也存在干扰。“人们观察到由于声子散射,通过薄的纳米级材料层的热阻增加。当进一步下降到原子或量子水平时,高温通常会损害纳米系统的功能,例如通过热展宽或热弛豫。”
这意味着需要在设计流程中更早地处理散热问题,以便识别、理解和适当处理这些问题。
“热量问题已经从一个组件扩展到一个系统问题,” Rambus的研究员和杰出发明家 Steve Woo 说。“过去,系统散热是在设计周期的后期考虑的,但现在不能这样做了。必须将热约束视为一流的设计参数,在设计的最初阶段就充分考虑。如果等到最后,你将面临不得不撕毁系统设计中的所有内容并重新开始的风险。”
西门子数字工业软件公司电子与半导体模拟中心总监 John Parry 对此表示赞同。“越早使用模拟效果越好,因为在如何做某事方面,你经常面临许多不同的选择,”他说。“在早期设计中,你必须很快地探索、评估和打折那些行不通的方法或配置。模拟是能够有效地做到这一点的关键。它还有一个好处是,如果能够尽早做出正确的选择,就能提出一个有信心可以成功的设计。由于存在激烈的热和机械挑战,当涉及到先进封装时,将仿真提升到设计流程的左移信息尤其重要。”
仅仅在芯片或封装上放置一个巨大的散热器并不能解决问题,尤其是在复杂的设计中。在这些冷却装置甚至有机会工作之前,芯片可能已经损坏。
“很多人一开始就关注性能基准,但这就是他们遇到麻烦的地方,” Cadence产品营销总监 Melika Roshandell 说。“在设计的最初阶段,他们决定使用什么技术、什么架构、他们想在哪里放置不同的 IP,以及这些 IP 的频率。他们认为以后可以通过合并风扇和散热器来解决散热问题。这种规划可能会导致基准测试缺失,因为 IP 上的温度传感器可能会限制它。”
虽然温度传感器可以降低热失控和芯片熔化的风险,但它们本身也会产生问题。需要将它们小心地放置在最容易积聚热量的地方,这可能并不明显,因为芯片或封装的其他部分可能充当转移热量的管道。
Ansys区域技术经理 Calvin Chow 表示:“如果你的传感器放置在错误的位置,你可能会认为你处于 80 度,但真正的热点可能是 100 度。在这种情况下,根本没有节流,因此可能会对芯片造成重大损害。要确保将传感器安装在要产生热量的位置。”
图 1:多物理场仿真,包括热对封装和电路板不同区域的机械应力和热图的影响,以及用于建立正确结温的 CFD(计算流体动力学)。来源:Ansys
好消息是,温度传感器现在正以更复杂的方式被使用,imec 系统/技术项目主管 James Myers 说。“如果让芯片保持热状态,那么老化会加速,那么最终也可能会更慢地运行芯片。人们应对这种情况的一种方法是使用传感器来跟踪温度历史。因此,与其为最坏的老化情况留有余地,例如,在芯片始终以 90 度的温度运行 10 年的情况下,可以使用传感器来建立时间阈值。可以在温度保持一定时间后进行节流,而不是在阈值温度下节流。”
2.5D、3D 芯片
热度带来的挑战现在是先进封装的固有问题,这种曾经新颖的结构正在成为芯片设计中的常见特征。
“你面临着多个相互影响的挑战,”Parry 说。“从一个芯片的角度来看,一个好的解决方案实际上可能会反过来导致下一个芯片的情况变得更糟。这几乎就像 Whac-A-Mole。你解决了一个问题,它会给你另一个领域的问题。例如,热和机械挑战通常需要权衡取舍。我们通常在粘合层中看到这一点。这些可以帮助缓解两侧材料的相对膨胀,例如小芯片和硅中介层之间的材料。使包括互连在内的层更厚可以减轻机械应力,但会增加通过该层的热流阻力,这反过来会使不匹配变得更糟,并使材料选择和设计决策变得棘手。”
其他人也同意。“散热一直是个问题,但 3D 和 2.5D IC 设计加剧了这个问题,”Chow 说。“这是因为当你堆叠裸片时,热量无法轻易逸出或消散。最重要的是,裸片之间存在热耦合,这可能会导致影响性能的可靠性问题。从根本上说,设计师必须在早期阶段做出热决定,因为从可靠性和性能的角度来看会影响下游。”
随着数字逻辑的不断扩展,这一点尤其正确。因此,即使 GAA FET 有助于解决静态泄漏,动态功率密度仍在继续增加。反过来,这会产生更多的热量。
“如果你将相当不错的硅的热导率(每开尔文大约 150 瓦)与一小块硅进行比较,它会减慢大约 30 倍,”Synopsys研究员 Victor Moroz 说。“因此,与通常的大硅晶片相比,这些微小部件内部的热量运动要慢 30 倍。副作用是 GAA 通道内的峰值温度高于 FinFET 峰值温度。局部峰值温度较高,这会加速老化并降低性能。”
超前思考
没有适用于所有设计的单一最佳解决方案。有很多方法可以解决散热问题,但它们在复杂性、成本和性能方面可能会有所不同。这就是为什么必须在设计周期的早期处理它,并且需要在设备将如何使用以及哪些组件将产生热量、产生多少热量以及产生热量的频率的背景下进行模拟。
挑战在于热量会随着时间的推移而增加,这通常不会在芯片级进行分析。“出于散热的目的,这些时间常数需要更长的时间才能捕捉到热行为是什么,”Chow 说。“这意味着我们必须在很长一段时间内捕获功率,获取仿真数据,获取功率曲线,并将它们应用到芯片上,以便尽早正确地进行热分析。只有这样工程师才能说,‘我有我的功率编号,我的功率信息,我可以进行热分析。这个平面图优化了吗?我是否有足够的 TSV 和微凸块来分配功率?”
图 2:系统级热图。来源:Ansys
与此同时,工程师倾向于低估纳米系统内自热和温度分布的复杂性,Fraunhofer 的 Sohrmann 说。“微系统内的热导率比电导率低几个数量级,这使得准确预测温度分布更具挑战性。热分析的复杂性导致工程师完全忽略准确的模拟并使用最坏情况值。这可能会导致浪费的设计余量,这在高级节点中可能会变得昂贵。因此,需要付出更多努力来解决这个复杂的主题,并创建适用于各种参数、布局或边界条件的简化模型。”
美光 NAND 组件营销总监 Dan Doyle 提供了一些建议和示例,以从散热角度改进系统。“如果要生产多种外形尺寸,请在建模和早期测试中分析最坏情况的外形尺寸。环境温度至关重要,应模拟最坏的情况。工作负载也应该是最坏的情况,对于客户端系统,数据缓存为空和数据缓存满功率通常会有很大差异。如果初始结果不令人满意,请务必使用 TIM(热界面材料)评估性能。并尽可能利用真实世界的客户数据,因为它具有指导意义。”
此外,美光产品架构总监 Tony Veches 表示,关注客户很重要。“由于工艺、设计和包装之间的相互关系,工程师在这些领域的密切合作对于为客户寻找创新解决方案至关重要,必须详细了解客户的工作负载并确保客户和供应商架构团队之间的紧密合作联合仿真,然后联合优化组合系统。”
冷热布局
平面规划在热规划中变得至关重要。“关键是有意识地使用功率,以确保每一焦耳,每一瓦特,都是你想要的,” Myers说。
这在高级节点中尤其重要,但在成熟节点中也很重要,尤其是在 AI 加速器和架构可能产生高温的情况下,以及在异构高级封装中,热效应会因不同的组合和布局而异。
“你不仅要考虑你的组件,还必须考虑你的组件的放置位置,”Rambus 的 Woo 指出。“你是在用干净的空气来冷却它,还是在用肮脏的空气?清洁空气是首次进入机箱时,并且总是首选,因为它往往是最冷的温度。脏空气更难计划,因为它已经漂浮在热组件上。我们从一开始就经常问这些问题。过去我们不一定总是要这样做。”
Woo 表示,理想的情况是尽可能保持气流的引导,因为不受干扰的气流具有最佳的吸走热量的能力。“散热是底盘设计不可或缺的一部分。最热的组件应该首先接触到进入机箱的空气,因为这是最低的空气温度,并且会在它通过机箱时变热。通过使用冷热通道,散热设计已从机箱扩展到数据中心。服务器的前部面向冷通道,它们吸入凉爽的空气。当空气通过服务器时,它会变热并从服务器后部排出到热通道中。”
定制芯片
布局的挑战在于,作为一种节省成本和时间的措施,芯片通常是现成的。在这种情况下,芯片设计人员不知道芯片最终将放置在哪里,并且可能没有考虑系统设计人员的特定配置。
至少对于一些较大的参与者来说,答案是创建定制 IC。这些专有设计被称为“定制芯片”,由内部芯片和系统团队共同创建,因此每个人都可以在相同的热预算范围内进行设计。
对于规模较小的公司和预算较紧的公司来说,问题仍然存在。芯片可能已被评定为特定温度,但不一定在所有情况下都经过测试。“这强调了模拟的重要性,”Parry 说。“使用集成到其产品设计套件中的仿真工具,小型公司能够更好地采用新方法。”
暗硅
处理热问题的一种方法是“暗硅”,即在不使用电路时关闭或关闭电路以节省电力。Arm 开创了这一概念的商业应用,Myers在转向 imec 之前是其支持者之一。
“这是非常特定于设计的,”Myers解释说。“在移动领域,存在很多异质性,因此可能会有一个新工艺,其中包括一些新的逻辑设备和更多的晶体管。你可以添加另一个加速器、RNN、CNN 和专门的视频编解码器。然后这些块会通电一段时间,但它们不会一直很热。”
暗硅并不是一个适用于所有情况的答案。“在其他类型的设计中,比如用于 AI 训练的大型 GPU,它们将一直处于开启状态,”Myers说。“因此,你必须在它们之间平均分配功率,因为这是一个并行工作负载。如果你只是进入并增加功率以获得性能,你会发现当你开始包装时,你可能必须真正降低频率以适应你所拥有的冷却限制。因此,只有在你的热净空范围内,性能才会出现。”
液冷
散热器和风扇并不是减少热量的唯一方法。“还有浸没式冷却,你可以将电路板放入惰性液体中,”Woo 说。“他们没有充电能力,所以他们不能把电路板短路。”
根据 Woo 的说法,浸入式冷却在大约半个世纪前由 Cray 首次获得专利,但其费用使其仅属于超级计算机领域。现在,它正在考虑用于更小的系统,以及微流体冷却。在后一种想法中,冷却液通过密封的内部通道流动。微流体冷却主要处于实验阶段,但有一天它可以为更小的移动设备提供浸没式冷却型解决方案。
传统方法也有新的变化。“顶级超大规模数据中心运营商在他们的冷却系统上做了很多工作,包括使用温水而不是冷水等非直观的事情,”Myers说。“他们在将其送回之前不会将其冷却。他们把它送回去稍微温暖。这使得它比冷却它更快、更具成本效益。”
新问题——背面功率传输
最新的架构创新之一是背面供电,其中晶圆的背面用于供电,而不是简单地用作无源载体。因此,不是在一块硅片的一侧构建电子设备,而是在另一侧进行电力传输。这使得处理更加困难,但它显著缓解了问题——至少在理论上是这样。
Synopsys 的 Moroz 表示,虽然目标很明确,但功率密度和规模仍可能会产生热量问题,这需要在规划中加以考虑。“我们依赖硅芯片,因为它们很厚,有数百微米,这意味着它们可以垂直和横向带走热量。如果周围散布着一堆热点,就知道热量会横向移动,使温度更加均匀。这样一个热点就会变得不那么热,而它的邻居会得到一些热量。但是背面供电的硅芯片非常薄,有数百纳米,这意味着横向传热非常糟糕。只是没有足够的空间横向移动热量。这可以通过对背面铜线使用高图案密度来缓解,这样铜有助于热量散发。”
Moroz 还指出,有一些技术可以将热量管理“委托”给特殊的片上电路,这些电路可以检测到此类问题并通过将电路活动重新引导远离热点或在无法重新定向时减慢速度来动态管理它们。
结论
即使是最好的规划也不能消除对热功率管理的需求,这可能仍然需要刻意的节流性能。“它要么很慢,要么融化,”一位消息人士说。更好地控制权衡的唯一方法是将散热考虑转移到设计过程的早期。
“你可以说,它会在几个点变得很热,所以让我们引入一个设计余量,让一切都减慢 20%,”Moroz 说。“或者你可以有一个模型来反映你所有的材料、组件和配置,然后它更准确地告诉你热点在哪里。也就是说,你可以设计一个仅在某些位置退化 20% 的电路,但在其他地方表现更好。”
这也是假设这在设计周期中足够早地完成。Cadence 的 Roshandell 警告说,生产后期无法解决热失控问题,唯一的解决方案是新的流片。
精彩评论