面壁智能联合清华开源端侧新品BitCPM-CANN，突破手机运行大模型壁垒

2,782 0

# 面壁智能联合清华开源端侧新品 BitCPM-CANN，突破手机运行大模型壁垒

近日，面壁智能与清华大学联合宣布开源端侧大模型新品 **BitCPM-CANN**，该模型基于自研的极低位量化技术与华为昇腾 CANN 计算架构深度适配，首次将数十亿参数的大模型推理能力完整部署到主流智能手机上，标志着端侧大模型从“能跑”向“高效跑”的关键跨越。

**技术突破：比特级量化与架构协同**

BitCPM-CANN 核心创新在于将模型权重压缩至 **1-bit 或 2-bit** 级别，相比传统 FP16/INT8 模型，显存占用降低 4~8 倍，使得原本需要数 GB 内存的百亿参数模型可被装进手机 4~6GB 的运行时内存中。同时，团队针对华为 CANN（Compute Architecture for Neural Networks）的向量化指令集与流水线进行了定制优化，在骁龙、麒麟等常见移动芯片上实现了 **实时推理延迟低于 200ms** 的交互体验，且精度损失被控制在 3% 以内，优于此前业界主流的 4-bit 量化方案。

**场景落地：隐私与实时性的双赢**

该模型开源后，开发者可直接在手机端运行对话、代码补全、文档摘要等任务，无需联网上传数据。面壁智能 CEO 指出：“BitCPM-CANN 证明了当前移动端计算资源已具备承载高质量大模型的能力，隐私计算和离线智能助手将不再是空谈。” 实际测试中，该模型在 iOS 和 Android 主流旗舰机型上可持续运行超 3 小时，功耗控制在 2W 以内，满足日常使用需求。

**行业影响：端侧 AI 竞争格局重构**

这一开源成果有望打破“大模型必须依赖云端算力”的固有认知，推动手机厂商将大模型预装进系统，催生端侧原生 AI 应用生态。同时，极低位量化与硬件厂商的联合优化路径，也为其他终端设备（如 IoT、可穿戴设备）提供了可复用的技术范式。未来，面壁智能与清华团队计划进一步开源微调工具链，降低开发者适配门槛，加速端侧大模型的规模化落地。