清华与腾讯混元联手夺得MLSys2026 MoE推理挑战赛冠军，NPU推理速度提升4.1倍

2,205 0

# 赛事背景与技术挑战

在机器学习系统领域顶级会议MLSys2026举办的MoE（Mixture-of-Experts）推理挑战赛中，清华大学与腾讯混元团队联合提交的方案以显著优势夺冠。MoE架构作为大语言模型高效扩展的关键路径，其推理阶段面临的**专家路由负载不均衡**、**通信开销高**以及**NPU硬件适配不足**等痛点长期制约落地性能。本次挑战赛聚焦于在NPU（神经网络处理单元）上实现MoE模型的高效推理，要求参赛团队在不牺牲模型精度的前提下，最大化推理吞吐与能效。

# 核心突破：NPU友好的并行调度与访存优化

冠军方案的核心创新在于提出了一种**感知NPU硬件拓扑的分布式MoE推理引擎**。该引擎针对NPU的**显存带宽有限**和**跨芯片通信延迟敏感**特性，设计了三个关键优化：

1. **自适应专家分组策略**：通过在线分析推理请求的专家激活模式，将高频共现专家静态绑定至同一NPU集群内，减少跨芯片数据搬运。
2. **流水线-专家并行混合执行**：将模型层间流水与专家内并行计算深度融合，利用NPU的**稀疏计算单元**对非激活专家的零计算进行硬件级跳过，有效降低无效算力浪费。
3. **零拷贝梯度-权重复用**：在推理时自动复用相邻请求的专家权重缓存，结合NPU特有的**近存计算**特性，将参数加载延迟降低至传统方案的23%。

实测结果显示，在标准MoE-6B模型上，方案在单张NPU上实现了**4.1倍推理速度提升**（相对于未优化的基线），同时能耗比优化达3.7倍，在端侧和云侧推理场景中均具备显著竞争力。

# 行业启示与未来方向

此次夺冠不仅验证了**“高校理论创新+工业硬件落地”**协同模式的有效性，更重要地揭示了MoE推理优化的新范式：即从“通用计算优化”转向“硬件定制化算子+系统任务协同调度”。随着NPU在边缘设备和AI云服务器中的渗透率快速提升，如何让MoE这类动态稀疏模型在非GPU硬件上发挥极致效率，将成为2026-2027年MLSys领域的关键命题。清华-腾讯混元团队的成果为这一方向提供了可复用的系统设计范本，也预示着未来大模型推理将进入“硬件系统联合设计”的深水区。