Overview
高带宽存储(High Bandwidth Memory, HBM) 是一种通过硅通孔(TSV)垂直堆叠多层 DRAM die 并与逻辑 base die 封装在一起的先进存储技术。与传统平面 DRAM 不同,HBM 通过极宽的数据总线实现超高内存带宽,同时降低单位 bit 能耗,使其成为 NVDA、AMD 及各类 AI ASIC 加速器的标配内存。在 AI 训练和推理模型规模指数级扩张的背景下,HBM 已从存储行业的周期品升级为 AI 服务器物料清单(BOM)中最稀缺、最高价值的环节之一,其技术迭代节奏(HBM3E → HBM4)和供给能力直接制约 AI 算力系统的实际交付。
Landscape
HBM 的核心价值驱动力在于 AI 加速器内存带宽瓶颈的结构性刚性。当 GPU/ASIC 的算力密度持续提升,模型参数规模和数据吞吐需求同步膨胀,传统 GDDR 或 LPDDR 的带宽和能效已无法满足系统级需求,HBM 因此成为从"算力芯片"到"算力系统"的关键桥梁。这一逻辑的技术验证在于:每一代 HBM 的升级都伴随堆叠层数增加、单颗容量扩大和接口带宽跃升,而客户对新一代产品的认证紧迫性从未减弱——HBM4 将于 2026 年进入大规模量产阶段,成为 SK Hynix、Samsung、Micron 三家供应商争夺份额的主战场。
需求侧的三层结构支撑 HBM 的客户多元化,但也隐含集中度风险。第一层是 NVDA 的 Blackwell 及后续 Rubin 平台,作为 HBM 最大单一采购方,其产品路线图直接决定 HBM 规格迭代节奏和定价锚点;第二层是 AMD Instinct 系列,在部分超大规模客户中形成替代选项;第三层是 Google TPU 等自研 ASIC 及中国厂商的加速芯片,虽然单量较小,但共同构成需求基座的广度。HBM 并非单一客户故事,但 NVDA 的认证标准和采购节奏对供应商良率、产能分配和毛利率具有压倒性影响力。
供给弹性是 HBM 投资逻辑中最复杂的变量,受技术路线和物理瓶颈双重约束。HBM 的制造涉及 DRAM die 良率、TSV 堆叠精度、base die 设计(部分转向逻辑工艺)、以及 TSM 主导的 CoWoS 等先进封装产能。任何一环的瓶颈都会限制实际 bit 供给,而当前 先进封装产能和 base die 供应是公认的最紧约束。这意味着 HBM 的短期价格弹性不仅取决于内存厂商的扩产意愿,更取决于半导体设备、封测产能和上游材料的资本开支周期——这一链条的响应滞后通常为 12-18 个月。
HBM4 技术路线出现关键分化,集中在 base die 工艺选择。ISSCC 2026 披露的三家供应商方案形成鲜明对照:Samsung 采用 SF4(4nm 级)逻辑 base die 搭配 1c DRAM 核心 die,实现 13 Gb/s 单 pin 速度和 0.75V VDDQ(较 HBM3E 的 1.1V 下降 32%),性能指标为三家最优,可支持 NVDA Rubin 平台的 pin speed 要求;但 SF4 为近先进制程,成本显著高于竞争对手。SK Hynix 选择 TSM N12 逻辑工艺 做 base die,Micron 沿用 内部 CMOS base-die 技术,两者均为成本更低但性能上限较保守的路线。这一分化意味着 HBM4 时代的竞争维度从单纯的 DRAM 良率比拼,扩展为“性能-成本-可靠性”的三维权衡:Samsung 以激进制程投入换取性能领先和认证窗口,但需承担更高的 die cost 和 1c 节点前端良率仅约 50% 的 margin 压力;SK Hynix 凭借更成熟的供应链和可靠性记录维持 dominance,但需防范 Samsung 在 NVDA 等核心客户处的份额侵蚀。
逻辑 base die 成为 HBM4 标配是结构性变化。此前 HBM 世代中 core die 与 base die 共用 DRAM 工艺节点,而 HBM4 将 base die 迁移至逻辑工艺以应对 AI 工作负载对带宽和数据速率的更高要求。这一变化强化了 TSM 在 HBM 供应链中的枢纽地位:SK Hynix 的 N12 base die 依赖 TSM 代工,Samsung 虽采用内部 SF4 但也需协调 foundry 产能,Micron 的内部 CMOS 路线虽规避外部 foundry 依赖,但技术代际差距可能限制其高端竞争力。
新的结构性变量来自推理架构的分化。Cerebras 的 wafer-scale 引擎(WSE-3)采用片上 SRAM 而非 HBM,以牺牲容量换取极致的 token 生成速度(interactivity)。随着 OpenAI 与 Cerebras 签订 750MW 计算合约(价值数十亿美元),fast inference 从边缘需求跃升为前沿实验室的核心采购标准。这一变化的深层含义是:AI 推理市场正在分裂为两个优化目标不同的子市场——高吞吐量 batch 推理仍依赖 HBM 的容量带宽比,而低延迟交互式推理可能倾向 SRAM 架构的极端速度。Cerebras 的规模化商用证明,在特定工作负载下,HBM 并非不可替代;但 SRAM 的容量限制(单 wafer 仅数十 GB 级片上存储)使其目前无法服务于大模型训练和大规模 batch 推理。
更关键的验证来自用户端的付费行为。SemiAnalysis 披露其 2026 年 4 月 80% 的 AI 支出用于 Opus 4.6 fast 模式(年化峰值 $10M),且 OpenAI 工程师因 Claude 4.7 未包含 fast mode 而拒绝切换模型——这是该团队首次放弃前沿智能以换取更快 token。这一行为揭示 fast inference 的需求弹性可能高于此前预期:用户不仅为速度付费,且对速度缺失的容忍度极低,形成强粘性。Opus 4.6 fast 以 6x 定价换取 2.5x 交互速度(后降至约 1.75x),被认为是 Anthropic 最高毛利 SKU。然而,该模式近期出现速度退化(从 >100 tps 降至 ~70 tps),提示 SRAM 架构的规模化服务稳定性仍是挑战,也为 HBM-based 方案的优化窗口留下空间。
多空分歧的焦点在于 HBM 的高景气是长期结构升级,还是 AI capex 前置造成的阶段性供需错配,以及 fast inference 需求崛起是否削弱 HBM 在推理端的不可替代性。多头认为,AI 推理工作负载的扩大将推动每颗加速器的 HBM 容量持续提升(从当前 192GB 向 256GB+ 演进),高阶 HBM 的 mix 升级和价格溢价具有长期支撑;且 HBM 在 AI 服务器 BOM 中的占比已升至 15-20%,存储环节的价值重估是结构性的。空头则指出,SK Hynix、Samsung、Micron 均在激进扩产 HBM 产能,2026-2027 年新增供给集中释放后,若 AI 加速器出货增速放缓或客户库存累积,HBM 可能从短缺快速转向过剩;此外,Cerebras 等 SRAM 架构在 fast inference 的渗透可能压缩 HBM 在推理侧的增长空间——普通 DRAM 价格走势是关键的先行指标,若 HBM 强而 DRAM 弱,内存厂商估值将高度分化;若 HBM 也进入价格竞争,AI 存储溢价需全面重估。
当前主导力量仍偏向多头,但边际上三类谨慎情绪同步升温:供给端 2027 年产能释放的竞争格局、需求端推理架构分化对 HBM 需求弹性的潜在侵蚀,以及 HBM4 技术路线分化后各供应商的 margin 结构差异。Samsung 的激进制程策略若无法在可靠性验证中缩小与 SK Hynix 的差距,可能陷入“高成本、低溢价”困境;SK Hynix 则需维持技术-成本平衡以防守份额。跟踪框架需同步监测七个变量:HBM bit supply growth、客户认证进度(尤其 NVDA 平台窗口)、CoWoS/先进封装产能利用率、HBM 毛利率与普通 DRAM 价差、AI 加速器出货的季度环比变化、fast inference 市场规模增速与 SRAM 架构的份额侵蚀,以及 三家供应商 HBM4 base die 良率和成本结构的实际分化。
证伪条件:HBM 合约价出现连续下行且出货增长无法抵消;HBM4 认证延迟导致主要供应商错过 NVDA/AMD 平台窗口;先进封装或 base die 供给瓶颈限制实际交付;AI 加速器出货放缓使 HBM 从短缺转向库存累积;fast inference 需求占比超预期提升且 Cerebras 等 SRAM 方案扩展至更大模型规模;Samsung HBM4 因 1c 良率或 SF4 成本导致 margin 显著低于 SK Hynix,引发份额争夺中的价格战。