# 中国移动推出MoMA平台:AI基础设施化的里程碑与Token成本革命
2025年,中国移动正式发布MoMA(Mobile AI Model Architecture)平台,标志着运营商级AI基础设施从“模型即服务”向“平台即基础设施”的跃迁。该平台通过集成算力调度、模型压缩与分布式推理引擎,实现了Token生成成本降低30%的突破性成果,为行业提供了可复用的AI基础设施范式。
## 一、MoMA平台的技术内核:从资源池化到智能编排
MoMA并非简单的模型托管平台,而是一套面向大模型全生命周期的基础设施层解决方案。其核心创新在于三层架构:底层是异构算力池(涵盖GPU、NPU及自研“九天”芯片),通过动态资源切片技术将闲置算力利用率提升至92%;中间层为模型微调与蒸馏引擎,支持LoRA、QLoRA等轻量化适配;顶层则是统一Token网关,实现请求级负载均衡与缓存复用。这种设计使得模型推理时的显存占用降低40%,直接推动Token成本从行业平均的0.008元/千Token降至0.0056元/千Token。
## 二、成本降低30%的产业逻辑:规模效应与算法协同
30%的成本压缩并非单纯依赖硬件降价,而是源于三重协同:首先,中国移动拥有全国最大的5G+边缘计算节点网络,MoMA可将推理任务就近调度至边缘节点,减少骨干网传输时延与带宽成本;其次,平台内置的“动态Token剪枝”算法,能根据输入复杂度自动跳过冗余计算,使单次推理的计算量减少18%;最后,通过预付费+按量计费的混合资费模型,企业用户可享受批量采购折扣。这一模式尤其利好中小型AI开发者,使其在千Token成本上直接对齐头部云厂商。
## 三、行业影响与战略展望:运营商重新定义AI基础设施
MoMA的推出,实质上是将电信运营商的“连接+算力+数据”优势转化为AI时代的标准化服务。相较于云厂商的MaaS平台,MoMA更强调“管道化”能力——用户无需关注模型部署细节,只需通过API调用即可获得低延迟、高可用的推理服务。这标志着AI基础设施从“重资产自建”转向“轻量化订阅”,预计将加速金融、医疗、工业等垂直领域的AI渗透。未来,随着中国移动“九天”生态的持续扩张,MoMA有望成为国内最大的运营商级AI推理底座,并推动Token成本进一步向0.004元/千Token逼近。