Overview
液冷(Liquid Cooling)是将液体作为传热介质替代空气,为高密度计算设备散热的温控技术。随着AI训练与推理集群的功率密度突破风冷极限——单机柜功率从数十千瓦向百千瓦级跃升——液冷正从高性能计算(HPC)的利基方案,演进为AI数据中心的主流基础设施。英伟达Rubin平台采用全面液冷设计,SOCAMM2内存模组亦明确支持液冷策略,而Cerebras的wafer-scale系统同样以液冷为刚性配套,标志着上游算力架构对液冷的绑定正从单一生态向多元高密度架构扩散。液冷产业链涵盖冷板(Coldplate)、快接头(QDs)、歧管(Manifolds)、冷却液分配单元(CDU)及整柜集成,与Optical Module、PCB、连接器等同属AI服务器增量组件赛道。
Landscape
核心驱动变量是AI算力密度与能耗约束的剪刀差。 英伟达VR NVL72机柜采用"极端协同设计"(extreme co-design),将整机柜视为单一分布式加速器,其热设计功耗(TDP)与集成度远超Grace Blackwell世代。SemiAnalysis对VR NVL72的物料清单与功耗模型分析显示,液冷内容(Coldplates、QDs、Manifolds)已成为机柜级BOM的独立品类,与硅含量、互联网络并列。这意味着液冷不再是可选配置,而是Rubin平台出货的刚性配套——若Rubin渗透率提升,液冷组件将同步放量,而非线性替代风冷存量。
非英伟达生态的高密度架构同样强化液冷需求。 Cerebras CS-3系统采用全面液冷设计以支持其wafer-scale引擎的散热需求,其与OpenAI签订的750MW算力合约(计划2028年交付)意味着wafer-scale推理集群的液冷配套将进入规模化部署阶段。这一信号表明,液冷需求的增长逻辑并非完全绑定英伟达出货周期,任何追求极致算力密度的架构选择——无论GPU、wafer-scale或其他定制加速器——均可能将液冷作为热设计前提。这对液冷供应链的意义在于:下游客户结构可能从"英伟达服务器ODM集中"向"多架构、多客户分散"演变,组件商需跨平台适配能力。
内存子系统的液冷兼容性正在标准化。 JEDEC定义的SOCAMM2模组将LPDDR5X引入服务器形态,其扁平低矮的模块设计明确"支持液冷策略"(enables liquid cooling strategies)。这一信号表明,液冷需求正从GPU/CPU向内存、网络接口卡等周边组件扩散,散热设计的系统性要求提升,可能增加液冷方案商的集成复杂度与价值量。
下游渗透存在梯度差异。 数据中心级液冷(如VR NVL72、Cerebras CS-3集群)与工作站级液冷属于不同市场。联想ThinkStation P4工作站对170W以上CPU配置提供液冷选项,显示液冷向边缘高性能计算场景下沉,但该市场容量与单价远低于超大规模数据中心,且竞争格局更分散。投资者需区分"AI数据中心液冷"与"工作站/PC液冷"两个叙事,避免混同。
当前事实分歧集中于供应链验证。 一方认为英伟达平台绑定将催生液冷组件的"Rubin专属供应链",冷板、快接头等环节可能出现类似Optical Module的集中供应格局;另一方指出,液冷系统涉及机械密封、材料兼容性、长期可靠性等工程细节,超大规模云厂商(CSP)可能要求多源供应并自研部分方案,挤压第三方组件商的利润空间。Cerebras的崛起引入第三重分歧:wafer-scale架构的液冷设计是否与标准机柜兼容,抑或需要定制化方案,这将决定液冷组件商能否跨平台复用产能。关键可观测条件包括:①Rubin平台量产时间表与产能爬坡节奏;②Cerebras 750MW部署的实际液冷方案供应商与架构细节;③头部CSP(如微软、谷歌、亚马逊)在液冷方案上的自研比例与供应商认证名单;④液冷系统故障率与运维成本数据,这将决定CSP是否将液冷从"技术必选"转为"商业可持续"的采购决策。
与关联实体的依存关系: 液冷渗透深度直接受英维克等温控设备商、工业富联等服务器ODM的集成能力制约;上游北方华创等半导体设备商虽不直接参与液冷,但其刻蚀、薄膜设备的功耗趋势间接影响数据中心热设计。液冷与Power Grid的交互亦值得关注——若液冷能降低PUE(能源使用效率),可能缓解AI集群的电力获取约束,反之若液冷系统自身功耗过高,则抵消其散热收益。