【分享】下一代尖端AI系统的电源解决方案

简介

人工智能(AI)综合了多种解决问题的方法,例如数学、计算统计、机器学习和预测分析。AI系统通过基于计算机的“神经”网络来模仿人脑学习并解决问题。这种神经网络由并行处理器组成,能够运行复杂的学习任务并执行软件算法。如今的AI还在改革计算架构,以复制模仿人脑的神经网络。尽管在具有传统中央处理器(CPU)的服务器上也可以训练或开发通用模型,但大多数神经网络都需要自定义的内置硬件来进行训练。

图形处理单元GPU)和张量处理单元TPU)是用于加速神经网络训练的常见加速器。它们可以处理重复性和密集型计算,但却异常耗电。例如,早期的AI市场主导者英伟达的DGX-1 GPU超级计算机内置8个Tesla P100 GPU,每个GPU算力达到21.2 TeraFLOP,总共需要3200W的系统总功率。最新一代的DGX-2超级计算机则内置16个Tesla V100 GPU,每个GPU算力达2 petaFLOP,所需系统总功率达到10kW。因此,AI市场将迅速增长以满足不断增长的电源需求也就不足为奇了。

电源设计挑战

AI电源系统设计人员面临多方面的挑战。提供千瓦功率是他们的第一个挑战,而且效率绝对至关重要。要知道,这些计算系统是以全功率运行的复杂负载。活跃度下降,功率需求也会随之下降。系统必须在整个电力需求中保持尽可能高的效率。浪费的每一瓦能量都会作为热量消散,并转化为数据中心对散热系统的更高要求,这会增加运营成本以及碳足迹。

空间成本也在不断上升。现代数据中心都包含成百上千个处理单元,因此设备大小非常重要。减小单个单元的尺寸,就可以在与大型解决方案相同的空间中应用更多设备,从而实现更高的处理能力密度。然而,越小的尺寸越要求极大地提高功率密度,并减小散热面积。这使得散热管理成为下一代尖端CPU、GPU和TPU电源设计面临的重大挑战之一

另外,系统复杂性的增加和设计周期的压缩使设计资源更加紧张。资源大部分被分配给系统关键知识产权的开发,这意味着电源方案相关的电路常常被忽略,直到开发周期的后期。实际上,我们只需很少的时间,并且可能只需很少的电源设计资源就可以解决上述的挑战,得到理想的整体电源解决方案,它将是节省空间的、高效的、可扩展的、灵活的,并且只需要最少的设计工作

数字控制与模拟控制解决方案

模拟控制解决方案现在已无法应对AI市场中快速增长的电源需求。现在的电源系统更加智能,它被集成到整体解决方案中,与主CPU/GPU/TPU之间的通信也成为一项设计要求。在为AI市场设计高端电源解决方案时,数字控制解决方案将占据主导

理想的控制解决方案应当兼容多种产品(例如Intel、AMD、PMBus),并且因可扩展且配置灵活而易于使用。包括MPS在内的很多公司都提供了这类理想的高级控制器(参见表1)。它们提供了广泛而准确的系统控制,同时提供详细而精确的监测电压、电流、频率和故障监测均可在宽范围内进行配置。工程师可以实时访问这些监测值,以全面了解解决方案的性能。有经验的工程师还可以通过预测分析来优化运行时间,并在需要维修时获取更多可用数据,从而最大程度地缩短停机时间。


表1:高级控制器vs.模拟和数字控制解决方案

功率级:集成是关键

显而易见,电源解决方案没有功率级就无法工作,而功率级通常会采用分立式解决方案。 分立式解决方案由驱动器IC和一对外部MOSFET组成,为三芯片解决方案。还有一种方法是将多芯片驱动器-MOSFET(DrMOS)共同封装到一个IC解决方案中。如前所述,不断缩小的系统板面积使三芯片解决方案变得不再理想,因为它增加了有限板空间中的组件数量。共同封装的多芯片解决方案体积更小,所需的组件也更少;不过,其封装内部的寄生电感仍然很高,这会导致效率的损失,对AI等大功率应用而言也不理想。


图1:功率级的常用实现方法

与传统的分立式和多芯片解决方案不同,MPS提供了一种单片功率级解决方案。其功率级具有低静态电流、同步降压栅极驱动器以及单个芯片上的一对上管和下管MOSFET。通过将所有关键元件集成在一个封装中,可以轻松控制驱动器/MOSFET,并最大程度地减少开关节点处的振铃。另外,封装和板级之间的寄生电感也被大大降低。这种设计可以实现最先进的CPU/GPU/TPU设计所需的低输出电压下更高的效率

单片功率级只需最少数量的外部组件,因此简化了原理图以及PCB布局。其基本设计可以分两步完成:

  1. 选择适当数量的输入和输出电容器以满足电压和电流纹波要求;
  2. 选择一个电感器以满足总负载电流需求。

    图2:传统解决方案与高级解决方案的比较

这种器件的典型功率级可在各种温度下的全负载范围内实现出色的电流检测精度(±2%) ,并以高达3MHz的开关频率工作(见图2)。在极其宝贵的空间内还可以同时提供各种可配置的故障保护功能,如过流保护OCP)、相位故障检测IC温度报告,为设计人员提供了一种小而强大的解决方案,还不会影响效率或瞬态响应

结论

当今的AI系统都是通过多个高性能计算机系统来实现的,它在很多方面都对电源设计人员提出了挑战。传统的数据中心设计正迅速从通用的仅CPU解决方案演化为CPU、GPU和TPU的组合方案,这对电源设计解决方案提出了新的、更严格的要求。数字控制器及其功率级解决方案带来了灵活性和适应性,以及精确的控制、遥测和保护功能。 它使电源设计人员能够创建具有高效率和高功率密度的最新电源解决方案,可以满足快速增长的AI市场当前与未来的高功率需求。