阿里推出“真武M890”128卡超节点服务器，百纳秒级延迟赋能Agentic时代

1,788 0

阿里推出“真武 M890”128卡超节点服务器：百纳秒级延迟赋能Agentic时代

近日，阿里云正式发布了面向AI大模型与智能体（Agent）场景的超级计算节点——“真武 M890”。该服务器以单节点集成128张加速卡的规模，实现了百纳秒（<100ns）级别的卡间通信延迟，标志着云计算基础设施正从“分布式集群”向“超节点聚合”迈进，为Agentic时代的高频协同推理与实时决策提供了关键支撑。

技术突破：从“千卡互联”到“单节点超算”

传统大规模训练集群依赖高速网络（如InfiniBand或RoCEv2）将数百张GPU连接，但卡间通信延迟通常处于微秒级。真武 M890 通过自研的CXL互连架构和光电混合封装技术，将128张计算卡集成在同一物理域内，实现了内存语义级的数据交换。其核心在于“全互联拓扑”与“近存计算”——每张卡均可直接访问节点内任意内存地址，无需经过交换机转发，从而将延迟压缩至纳秒级别。这一设计本质上是在单节点内复现了超算级别的带宽密度：聚合显存带宽超过1.5TB/s，既消除了梯度同步中的通信瓶颈，也为大规模参数的全量更新提供了实时性保障。

Agentic时代的算力刚需：低延迟即“行动力”

随着多智能体协作、具身智能和实时推理应用的兴起，AI系统从“接受指令-返回结果”的离线模式，转向“感知-规划-执行”的在线闭环。Agent间需要频繁交换状态、模型切片或中间特征，传统微秒级延迟将导致决策滞后，例如在自动驾驶路径规划中，每增加1微秒延迟即可能影响厘米级控制精度。真武 M890 的百纳秒级延迟，使得智能体能够在一毫秒内完成多次子任务分解与协同调用，从而支撑起“推理即响应”的实时智能。同时，128卡的巨大算力池（理论FP32算力超5 PFLOPS）允许单个Agent瞬时调用数百亿参数模型的分片推理，无需频繁切换上下文，大幅降低了思维链调用的开销。

产业影响：重新定义云原生AI基础设施

真武 M890 的出现，将推动云平台从“资源池化”向“能力池化”演进。对用户而言，他们不再需要手动优化分布式通信策略，而是可以像使用单机多卡一样编写Agent逻辑，底层延迟由硬件透明屏蔽。这一趋势尤其利好金融高频量化交易、工业实时质检、以及边缘云协同等场景。不过，128卡超节点的高功耗（预计达10kW级别）也对液冷散热和数据中心供电密度提出了新挑战。阿里云已配套推出浸没式液冷方案，试图在性能与能效间取得平衡。

总体而言，真武 M890 是算力架构从“算力追大模型”转向“延迟追实时智能”的里程碑。当Agentic时代要求AI“边想边做”，百纳秒级延迟或将成为下一代云原生基础设施的默认门槛。