Featured image of post Google TPU 8 一刀两断:训练和推理为什么必须分家

Google TPU 8 一刀两断:训练和推理为什么必须分家

Google Cloud Next 2026 上有个消息被很多人忽略了——不是 Gemini 又更新了,不是新 Region 上线了,而是 TPU 第一次被拆成了两颗芯片。

不是迭代升级,不是加个 SKU,而是把沿用了八代的统一架构直接劈开。一颗叫 TPU 8t(代号 Sunfish),专攻训练;一颗叫 TPU 8i(代号 Zebrafish),专攻推理。

干了十年 TPU 的 Google,为什么要做这个决定?

需求已经分叉了

2017 年 TPU 刚出来的时候,训练和推理的差别没这么大。你训练一个 Bert,推理它,用的是差不多的计算模式——矩阵乘法,密集计算,一次性跑完。

但现在的情况完全不同了。

训练 的规模在疯狂膨胀。GPT-4 级别的模型参数量已经是万亿级,训练集群从千卡到了十万卡。训练芯片要的是:互联带宽、高精度浮点、大规模并行。TPU 8t 的定位就是这块。

推理 则走向了另一个方向。尤其是 AI Agent 的兴起——不再是问一句答一句,而是你要推理、规划、调用工具、多步执行,每一步都在推理解码。这要求推理芯片不仅要快,还要低延迟、高吞吐、成本可控

一颗芯片同时满足这两个方向,已经开始吃力了。

TPU 8t 和 TPU 8i 各管一摊

TPU 8t(训练芯片)

  • 代号 Sunfish
  • 与 Broadcom 联合设计
  • 专为万卡级集群优化,强调高带宽互联和 FP8/BF16 矩阵运算
  • 目标:把万亿参数模型的训练时间从月缩短到周

TPU 8i(推理芯片)

  • 代号 Zebrafish
  • 与 MediaTek 联合设计
  • 专为 AI Agent 推理优化,强调低延迟和高吞吐
  • 目标:让多步推理的响应时间控制在百毫秒级

这个分工非常有意思。Broadcom 在高速互联领域的积累正好对训练有用,而 MediaTek 在功耗效率和移动端 SoC 的经验正好适合推理场景。Google 选合作伙伴的思路,紧扣了每颗芯片的实际需求。

更大的信号:AI 硬件正在"去通用化"

TPU 8 的分裂不是一个孤立事件。它反映的是整个 AI 硬件行业的一个深层趋势:AI 计算正在从"通用加速器"走向"场景专用芯片"。

过去大家觉得一块 GPU 能搞定所有事情——训练跑它,推理跑它,甚至科学计算也用同一块 H100。但 AI 的负载分化速度比硬件迭代速度快得多。

训练和推理对算力的需求曲线完全不同:

  • 训练:峰值算力 × 持续吞吐 → 越猛越好
  • 推理:响应延迟 × 成本效率 → 够用就行,但要快且便宜

你不可能用一把螺丝刀干完电钻和螺丝刀的活。

对云上开发者意味着什么

对用 Google Cloud 的人来说,TPU 8 的分裂带来一个直接的好处:你不用为训练买单的价格去跑推理了。

TPU 8i 的推理成本预计会比 TPU 8t 低一个数量级。如果你有推理密集型负载(Agent 应用、实时翻译、代码补全),这可能意味着你的云端 GPU 账单直接减半。

而对于做 MLOps 的人,这意味着两套集群、两套调度策略、两套监控指标。训练集群关注利用率,推理集群关注 P99 延迟。这其实是好事——各管各的,反而更容易优化。

写在最后

Google 分裂 TPU 8 这个决定,技术上的解读有很多,但我更愿意把它看作一个产业的成人礼。

当 AI 计算开始细分到训练和推理需要不同的芯片时,说明这个行业已经足够成熟,成熟到不再需要"万能药"。就像通用 CPU 最终分化出 GPU、DPU、NPU 一样,AI 芯片也正在走上同样的路。

下一代 AI 基础设施的竞争力,可能不再取决于谁的芯片算力最猛,而取决于谁能在正确的地方放正确的芯片。

TPU 8t 和 TPU 8i 不只是一次芯片发布,他们是 Google 对 AI 硬件未来的一次表态:分而治之,才是最好的加速。

By AI博士 万戈