由 Informa Markets 主办、益企研究院协办的年度行业盛会——亚洲数据中心峰会暨产业展览会(Data Center Asia 2025),于 2025年7月15~17日在香港亚洲国际博览馆隆重举办。峰会围绕人工智能、绿色算力、液冷系统、国际拓展等热点议题展开,汇聚多家知名企业与机构的重磅嘉宾,共同探讨行业前沿与实践路径。
来自超聚变数字技术有限公司的产品规划专家熊家振以《绿色、开放、创新,多算力兼容——面向未来的液冷整机柜服务器架构》为主题,分析了液冷整机柜的架构形态和技术诉求,介绍了超聚变在多算力兼容整机柜领域的实践和演进。
AI集群对基础设施的新要求从大模型的训练看,模型的参数已经从千亿级(100B)增加到到万亿(1T,如GLaM 1T),乃至到十万亿(10T);训练数据从之前的TB级,增长到PB级,对AI算力的需求也是十倍、百倍的增加;训练集群的规模方面,海外的厂商已经部署10万卡的量级,国内的万卡集群已经跑通,也在同步地去构建10万卡级的集群。
展开剩余85%在如此大规模的集群下,通常会多租户部署。不同模型对Scale Up域的需求不同,对AI加速卡的调度提出不同的要求。不同的模型有的需要流水线并行(PP),有的需要数据并行(DP),还有的要专家并行(EP)等。同时,AI训练、推理的算法也在不断地进化。以DeepSeek为例,最初的PD分离部署中,Prefill需要部署32张H800,Decode需要部署320张H800。在开源周更新后,Decode需求调整为144张卡,明显降低了硬件成本。算法的进化,对基础设施的调度也提出了新的要求。
对于Scale Up域,有一个非常火的概念,叫做“超节点”。若干超节点通过Scale Out,组成集群。在超节点内,GPU之间带宽会非常的这个大,应该是集群Scale Out带宽的5 ~8倍。对于万卡、10万卡的集群,其中的超节点可能有数十到数百卡(如NVIDIA GB200 NVL72,未来的Rubin NVL576),国内顶尖的厂家目前做到了384卡的超节点。
高密度是超节点之根本第一个是能耗指标的问题,绿色低碳。随着设备功耗不断提高,尤其是AI服务器单节点的功率动辄8kW、 10 kW,甚至几十kW,冷却占用的能耗越来越高。液冷的效率远高于传统风冷,通过液冷技术可以把数据中心的POE降下去。目前我国对数据中心建设有着非常明确的POE要求,能效指标直接关系到数据中心能不能通过环评,能不能投入建设,乃至于建成后运营的TCO是否有竞争力。
第二个是狭小空间内高功率设备的散热问题。已经部署的主流芯片功耗动辄700、 800瓦,1200瓦甚至1500瓦的也正在陆续投入部署。在这种情况如果继续用风冷处理,需要把服务器做得特别大,风扇转速需要很高,除了增加数据中心的制冷能耗,更重要的是会降低部署密度。
第三个问题是算力密度。传统数据中心的机柜只有6~8kW,可能一台AI服务器都装不了。较新的AI服务器已经超过了传统机柜的供电能力,一个机柜只能装一台服务器,甚至两个机柜的电只能供一台服务器。那就带来上架率低的问题——一个43U、47 U的机柜中只安装一台8U服务器,大部分空间闲置。智算中心需要将供电能力提升,搭配液冷技术,将机架内的算力密度、功率密度尽可能提升。
提升算力密度对AI性能的提升至关重要。很多人不理解,为什么要把这么多GPU卡都装到一个狭小的空间?因为Scale Up域对GPU和GPU之间的通讯带宽要求很高,进而希望通信的链路要尽可能短。链路越短,延时越低,训练的效果就越好,集群性能就能得到更充分的发挥。要解决能效、散热、密度这些问题,一定绕不过液冷整机柜。在此我们探讨一下整机柜架构目前的形态与挑战,以及未来的演进。我们将目前可见的整机柜架构分为三种:单面盲插架构、前后正交架构、中置背板对插架构。芯片的架构和Scale Up交换的架构决定了整机柜的架构,三种架构会长期共存。
单面盲插是最常见的架构,亚马逊、微软、谷歌部署的集群基本上是这种架构,生态广泛。NVIDIA的NVL72、超聚变的FusioPoD也是这样的超节点。单面盲插架构还分两种,一种是是交换芯片与节点是一体的,另一种是机柜内通过专门的交换机实现Scale Up扩展。单面盲插架构可以很好的支持主流的56G、112G SerDes,更高的224G也有机会实现(如增加CDR,但会带来成本和功耗的增加)。
前后正交架构相比单面盲插的最主要优势是缩短了交换链路的长度。正交方案的线缆长度较水平方案短0.7米/节点,减少了信号衰减,可以支持更高速的连接,同时每个计算节点节约一对高速背板连接器。当SerDes提升到224G阶段,正交架构的损耗和链路成本会低于单面盲插架构。
中置背板架构是最新的方案,传输效果最好,可以将密度做的非常高,但也会带来很多的工程挑战,如高密度接口板的复杂度和精度要求极高。
高密度机柜对机房基础设施的挑战其次是母线排(Busbar)。整机柜的功率如果在250kW,用54V直流供电就可以了。但是,250 kW时母线排上的电流会达到2 500A,表面温度已经高到烫手的程度。因此,更高功率的机柜需要考虑高压直流,如400V、800V、±400V等方案。相应的,供电柜的架构也会发生变化。智算中心不是数据中心的简单升级,而是基于AI的业务复杂特性而做的重新设计。
单柜的功率越来越高,但传统风冷机房总的散热能力和供电能力是有上限的。单机柜功耗持续增加,风液混合冷板式液冷的风冷部分可能会达到风冷机房的极限,需要走向低温冷板或全液冷路线。供电能力的闲置会导致机房在改造的时候产生大量白地板的浪费。因为液冷和整机柜的方案虽然可以提高上架率,但供电和散热的上限会制约机柜的数量。在机房改造中,每一个客户、每一个行业都应该基于自己的业务特征和要求来选择一个适合自己的方案。
超聚变液冷整机柜家族智算64卡整机柜主要用于AI领域,它的功率更高,可以达到105kW。它在多算力兼容方面也做了一些大胆的尝试,每个节点4U,其中3U可插拔单元可以支持多种GPU,支持AI算力的百花齐放。不论GPU基于UBB还是HGX,只要单卡功率不超过1200W,配套的液冷模组、基板都可以获得超聚变的工程开发支持。
超节点的单柜功率可以做到240kW,支持64、72、128个加速卡,目前已提供112G线缆背板,也会快速跟进224G连接。超节点Scale Up柜内组网可支持单柜或双柜扩展。
风液混合是目前液冷整机柜的主流形态,超聚变致力于提升液冷整机柜的液冷覆盖比例,目前已经可以实现95%冷板覆盖,并面向未来无风扇全冷板进行了技术储备。除了GPU、CPU、内存,让液冷覆盖更多组件涉及大量的工程细节,包括硬盘、DPU、PCIe卡、硬盘、电源转换板等。
供电方面,目前超聚变整机柜盲插供电已批量交付105kW,很快可以实现200 kW(120~240kW)量级。未来,500kW以上的方案已经做了技术储备。电源模块部分,超聚变也是通过自研来尽可能地提高能效,现在可以做到超钛金的能效标准,达到96.5%以上的转化率。目前超聚变整机柜配置3kW电源是主流,预计今年就会上市5kW、效率97%的电源,12 kW电源已经进入规划。
直流母线方面,正在进行48V向±400V、800V的演进。低压供电面临电流过大带来的温度问题,使用更高的电压可以来电流降下来,并提高能效。800V带来了很多优势,包括和新能源生态的无缝对接。但800V也会带来一些新的安全问题,需要全新的产业链,包括碳化硅、氮化镓等,如何让电源能够做到更高的频率、更高的能效,还需要超聚变与业界的伙伴携手共进,共同繁荣生态。
结语:发布于:北京市股票金融配资提示:文章来自网络,不代表本站观点。