智谱携手清华等发布ZCube网络架构:大模型推理吞吐提高15%,网络成本降低33%

智谱携手清华等发布ZCube网络架构:大模型推理吞吐提高15%,网络成本降低33%

随着大模型参数规模突破千亿甚至万亿级别,分布式推理对底层网络通信的依赖日益加剧。传统的树形或环形拓扑在面对高并发、大流量场景时,容易产生带宽争抢和通信延迟波动,成为推理吞吐进一步提升的瓶颈。近日,智谱AI联合清华大学等机构正式发布ZCube网络架构,为这一问题提供了全新的解决思路。

ZCube的核心创新在于对数据中心内推理集群的网络拓扑进行了重新设计。不同于常规的Clos架构或全连接方案,ZCube采用了一种类似超立方体(Hypercube)的变体结构,通过将GPU节点按逻辑维度分组,并利用智能路由算法动态调度通信路径。这种设计有效消除了跨域通信中的冗余跳转,将AllReduce等关键通信模式的延迟降低约20%以上。同时,ZCube引入轻量级的流控机制,允许在相同物理链路下承载更多并行推理请求,从而在不增加硬件投入的前提下,使整体推理吞吐提升15%。

更值得关注的是,ZCube在成本端的优化。传统架构为保证多节点间的高带宽,往往需要部署大量高价交换机与光模块。ZCube通过减少中间交换层级、复用部分共享链路,使得构建同等规模推理集群的网络硬件成本降低33%。这对正在大规模部署推理服务的云服务商和企业而言,意味着显著的基础设施投入缩减。

从行业视角看,ZCube的发布标志着推理网络优化正从“堆硬件”走向“改拓扑”的阶段。未来,随着超大规模集群中通信占比的持续上升,类似ZCube的集约化架构有望成为AI基础设施的标准配置,进一步推动大模型推理的经济性突破。

相关文章