智谱携手清华等发布ZCube网络架构：大模型推理吞吐提高15%，网络成本降低33%

1,760 0

随着大模型参数规模突破千亿甚至万亿级别，分布式推理对底层网络通信的依赖日益加剧。传统的树形或环形拓扑在面对高并发、大流量场景时，容易产生带宽争抢和通信延迟波动，成为推理吞吐进一步提升的瓶颈。近日，智谱AI联合清华大学等机构正式发布ZCube网络架构，为这一问题提供了全新的解决思路。

ZCube的核心创新在于对数据中心内推理集群的网络拓扑进行了重新设计。不同于常规的Clos架构或全连接方案，ZCube采用了一种类似超立方体（Hypercube）的变体结构，通过将GPU节点按逻辑维度分组，并利用智能路由算法动态调度通信路径。这种设计有效消除了跨域通信中的冗余跳转，将AllReduce等关键通信模式的延迟降低约20%以上。同时，ZCube引入轻量级的流控机制，允许在相同物理链路下承载更多并行推理请求，从而在不增加硬件投入的前提下，使整体推理吞吐提升15%。

更值得关注的是，ZCube在成本端的优化。传统架构为保证多节点间的高带宽，往往需要部署大量高价交换机与光模块。ZCube通过减少中间交换层级、复用部分共享链路，使得构建同等规模推理集群的网络硬件成本降低33%。这对正在大规模部署推理服务的云服务商和企业而言，意味着显著的基础设施投入缩减。

从行业视角看，ZCube的发布标志着推理网络优化正从“堆硬件”走向“改拓扑”的阶段。未来，随着超大规模集群中通信占比的持续上升，类似ZCube的集约化架构有望成为AI基础设施的标准配置，进一步推动大模型推理的经济性突破。