清华与腾讯混元联手夺得MLSys2026 MoE推理挑战赛冠军,NPU推理速度提升4.1倍
# 赛事背景与技术挑战
在机器学习系统领域顶级会议MLSys2026举办的MoE(Mixture-of-Experts)推理挑战赛中,清华大学与腾讯混元团队联合提交的方案以显著优势夺冠。MoE架构作为大语言模型高效扩展的关键路径,其推理阶段面临的**专家路由负载不均衡**、**通信开销高**以及**NPU硬件适配不足**等痛点长期制约落地性能。本次挑战赛聚焦于在NPU(神经网络处理单元)上实现MoE模型的高效推理,要求参赛团队在不牺牲模型精度的前提下,最大化推理吞吐与能效。
# 核心突破:NPU友好的并行调度与访存优化
冠军方案的核心创新在于提出了一种**感知NPU硬件拓扑的分布式MoE推理引擎**。该引擎针对NPU的**显存带宽有限**和**跨芯片通信延迟敏感**特性,设计了三个关键优化:
1. **自适应专家分组策略**:通过在线分析推理请求的专家激活模式,将高频共现专家静态绑定至同一NPU集群内,减少跨芯片数据搬运。
2. **流水线-专家并行混合执行**:将模型层间流水与专家内并行计算深度融合,利用NPU的**稀疏计算单元**对非激活专家的零计算进行硬件级跳过,有效降低无效算力浪费。
3. **零拷贝梯度-权重复用**:在推理时自动复用相邻请求的专家权重缓存,结合NPU特有的**近存计算**特性,将参数加载延迟降低至传统方案的23%。
实测结果显示,在标准MoE-6B模型上,方案在单张NPU上实现了**4.1倍推理速度提升**(相对于未优化的基线),同时能耗比优化达3.7倍,在端侧和云侧推理场景中均具备显著竞争力。
# 行业启示与未来方向
此次夺冠不仅验证了**“高校理论创新+工业硬件落地”**协同模式的有效性,更重要地揭示了MoE推理优化的新范式:即从“通用计算优化”转向“硬件定制化算子+系统任务协同调度”。随着NPU在边缘设备和AI云服务器中的渗透率快速提升,如何让MoE这类动态稀疏模型在非GPU硬件上发挥极致效率,将成为2026-2027年MLSys领域的关键命题。清华-腾讯混元团队的成果为这一方向提供了可复用的系统设计范本,也预示着未来大模型推理将进入“硬件系统联合设计”的深水区。