中国移动推出MoMA平台，引领AI基础设施化时代，Token成本降低30%

1,774 0

# 中国移动推出MoMA平台：AI基础设施化的里程碑与Token成本革命

2025年，中国移动正式发布MoMA（Mobile AI Model Architecture）平台，标志着运营商级AI基础设施从“模型即服务”向“平台即基础设施”的跃迁。该平台通过集成算力调度、模型压缩与分布式推理引擎，实现了Token生成成本降低30%的突破性成果，为行业提供了可复用的AI基础设施范式。

## 一、MoMA平台的技术内核：从资源池化到智能编排

MoMA并非简单的模型托管平台，而是一套面向大模型全生命周期的基础设施层解决方案。其核心创新在于三层架构：底层是异构算力池（涵盖GPU、NPU及自研“九天”芯片），通过动态资源切片技术将闲置算力利用率提升至92%；中间层为模型微调与蒸馏引擎，支持LoRA、QLoRA等轻量化适配；顶层则是统一Token网关，实现请求级负载均衡与缓存复用。这种设计使得模型推理时的显存占用降低40%，直接推动Token成本从行业平均的0.008元/千Token降至0.0056元/千Token。

## 二、成本降低30%的产业逻辑：规模效应与算法协同

30%的成本压缩并非单纯依赖硬件降价，而是源于三重协同：首先，中国移动拥有全国最大的5G+边缘计算节点网络，MoMA可将推理任务就近调度至边缘节点，减少骨干网传输时延与带宽成本；其次，平台内置的“动态Token剪枝”算法，能根据输入复杂度自动跳过冗余计算，使单次推理的计算量减少18%；最后，通过预付费+按量计费的混合资费模型，企业用户可享受批量采购折扣。这一模式尤其利好中小型AI开发者，使其在千Token成本上直接对齐头部云厂商。

## 三、行业影响与战略展望：运营商重新定义AI基础设施

MoMA的推出，实质上是将电信运营商的“连接+算力+数据”优势转化为AI时代的标准化服务。相较于云厂商的MaaS平台，MoMA更强调“管道化”能力——用户无需关注模型部署细节，只需通过API调用即可获得低延迟、高可用的推理服务。这标志着AI基础设施从“重资产自建”转向“轻量化订阅”，预计将加速金融、医疗、工业等垂直领域的AI渗透。未来，随着中国移动“九天”生态的持续扩张，MoMA有望成为国内最大的运营商级AI推理底座，并推动Token成本进一步向0.004元/千Token逼近。