Overview
TPU 原指 Google 的 Tensor Processing Unit,但在本 wiki 中更适合作为"面向 AI 工作负载的专用加速器 / AI ASIC"概念页使用。它的投资意义不在于单一芯片名称,而在于:当 NVDA GPU 供给紧张、成本上升或通用架构效率不足时,hyperscaler、车企和模型公司会尝试用自研/定制架构,在训练、推理或特定应用场景中获得更好的成本、功耗或延迟表现。
Thesis
当前 TPU/AI ASIC 的核心变量是 推理工作负载开始分化,单一 GPU 架构不再覆盖所有优化目标。SemiAnalysis 对 Blackwell 的微架构拆解说明,GPU 仍然在通用深度学习 workload、软件生态和 tensor core 演进上保持强势;但 Cerebras fast inference 的案例显示,低延迟 token 生成可以把 SRAM wafer-scale 架构推到商业前台。这意味着 TPU 页不能只写"Google TPU 替代 NVIDIA",而应写成一组非 GPU/定制加速路径的观察页。
晚点对百度的报道提供了需求侧视角:当 AI 行业从"模型调用"走向智能体执行,衡量指标可能从 DAU 转向 DAA(Daily Active Agents)等任务交付指标。对 TPU/ASIC 来说,这类应用如果进入大规模执行,会放大推理成本、延迟和能效压力,推动云厂商寻找更适合特定 workload 的加速器。
晚点对理想 CTO 的访谈提供了垂直场景视角:理想选择自研芯片和数据流架构,不沿主流 GPGPU 路线追赶 NVDA,目标是在汽车智驾场景里获得更高有效算力和软硬协同效率。这说明 AI ASIC 的价值不仅存在于 hyperscaler,也可能存在于汽车等高确定性 workload。
但 TPU/ASIC 的证伪条件同样清楚:软件栈、编译器、开发者生态和产能爬坡可能吞噬架构优势;如果模型结构快速变化,专用架构的灵活性反而成为缺陷。因此本页后续重点不应是罗列每家公司芯片,而是跟踪三件事:特定 workload 是否稳定、客户是否愿意为延迟/能效付费、以及非 GPU 架构是否能拿到足够制造和封装资源。
Current Read
2026-06-16 The Next Platform 对 Tensordyne LNS 架构的深度报道补充了关键工程变量:该芯片采用 3nm 工艺,目标覆盖边缘到云端推理,并给出 2027 年量产目标。LNS 的核心思路是把矩阵乘法转换为对数域加法,降低乘法器面积和功耗;但对数 / 反对数转换带来的精度损失、动态范围限制、软件栈适配和客户 design win 仍是主要验证点。
2026-06-16 Google 与 UC Berkeley 联合发表 TPU 论文,系统总结 v2 到 Ironwood 五代的演进,强调 架构稳定性、HBM 容量与带宽扩展、光路开关(OCS)带来的拓扑弹性,以及每瓦性能和碳排放效率的代际提升。该信号强化专用训练加速器可以跨多代 workload 演进的技术叙事,但论文仍是 Google 内部系统回顾,缺少外部客户采用或市场份额数据。
2026-06-15 Tensordyne 宣布基于 LNS(Logarithmic Number System,对数数值系统) 架构的 AI 推理芯片流片,宣称功耗比 GPU 替代品低一个数量级。该信号目前只适合作为待验证技术路线:LNS 可能降低部分乘法计算功耗,但需要 silicon 实测、精度损失评估、主流框架兼容性和客户部署证据,才能从"架构新奇"升级为可规模化的结构变量。
2026-05-20 的 AIGC 产业峰会把国产 AI ASIC 与"Token 智能"、具身智能叙事绑定,说明国内产业侧正在主动把非 GPU 加速路线嵌入 Agent 和物理世界智能的需求框架。这个信号目前更适合作为短期叙事升温,还不足以改写 Thesis:后续需要看到客户部署、性能/能效数据、软件栈成熟度和制造/封装资源,才能判断国产 AI ASIC 是否从会议叙事进入可投资的结构变量。
2026-06-11 Semiconductor Engineering 对 agentic AI 数据中心架构的讨论,补充了技术侧验证:下一阶段瓶颈不只是 GPU raw compute,而是 CPU 编排、异构 SoC/chiplet、内存移动、安全边界和系统验证的协同。该信号适合作为 Current Read,说明 TPU/AI ASIC 的观察范围应继续扩展到系统级异构化,但还不足以改写长期 Thesis。