谷歌与黑石联手组建新云公司，50亿美元投入TPU集群，未来训练大模型或能更快更便宜

1,484 0

谷歌与黑石联手组建新云公司，50亿美元投入TPU集群：大模型训练成本有望大幅下降

**导语**
近日，谷歌与全球最大另类资产管理公司黑石（Blackstone）联合宣布，将共同组建一家全新的云计算公司，并计划投入50亿美元建设基于谷歌定制张量处理单元（TPU）的大规模集群。此举被视为云计算与AI基础设施领域的重要里程碑，可能对未来大模型的训练效率与成本产生深远影响。

# 一、事件核心：TPU集群成为新云公司的“算力引擎”

新公司由谷歌提供TPU技术架构与AI平台经验，黑石则负责资本运作与基础设施建设。50亿美元将主要用于部署数万颗谷歌最新一代TPU v5p芯片，并配套高速互联网络与液冷系统。这些TPU集群专为大规模并行训练而优化，相比传统GPU方案，在矩阵运算与分布式训练场景下可显著提升性能功耗比。

# 二、背景分析：大模型军备竞赛下的算力瓶颈

当前，训练GPT-4级别的大模型需要数千张GPU连续运行数月，电费与硬件折旧成本动辄上亿美元。同时，英伟达GPU长期供不应求，导致企业需提前数月预定算力。谷歌TPU虽性能强劲，但此前仅通过自家云服务出租，第三方企业难以获得大规模调度权限。新公司的成立，意味着TPU算力将以“独立云服务商”形式面向市场开放，打破GPU垄断格局。

# 三、影响与展望：训练成本有望降低30%-50%

据估算，在同等浮点运算规模下，TPU集群的单位算力成本比H100 GPU低约20%-30%。若再叠加黑石在数据中心选址、电力采购上的规模优势，未来企业训练大型语言模型的单次成本可能下降40%以上，训练周期也将从数月压缩至数周。**更深远的影响在于**：中小型AI公司有机会以更低门槛获取顶尖算力，加速行业创新；同时，云计算市场格局将从“AWS/微软/谷歌”三足鼎立，演变为更多专业化算力服务商的崛起。

**当然，挑战依然存在**：TPU的生态兼容性不如CUDA，现有基于GPU的训练框架需针对性迁移；此外，黑石作为财务投资者，对长期技术迭代的耐心有待观察。但无论如何，这一联合已为“更快、更便宜”的AI训练时代按下加速键。