清华大学与面壁智能联合发布国内首款1.58-bit大模型BitCPM-CANN

1,633 0

# 清华大学与面壁智能联合发布国内首款1.58-bit大模型BitCPM-CANN

2025年4月，清华大学自然语言处理实验室（THUNLP）与面壁智能联合宣布，成功推出国内首款采用 **1.58-bit量化技术** 的大语言模型——**BitCPM-CANN**。该模型在保持核心推理能力的前提下，将参数存储和计算开销压缩至传统FP16模型的近1/10，为边缘端部署和能效优化开辟了全新路径。

## 技术突破：从比特级量化到计算范式重构

传统大模型量化通常采用4-bit或8-bit，而BitCPM-CANN首次实现了 **1.58-bit（三值量化）**：每个权重仅用-1、0、1三个值表示，相当于只需1.58个二进制位存储。这一创新并非简单压缩，而是基于 **CANN（Coarse-to-Fine Adaptive Normalization and Neurons）** 架构，通过粗粒度-细粒度两级自适应归一化和神经元级动态剪枝，在极低比特下保留了模型的关键表达能力。实验显示，该模型在多项中英文基准任务（如C-Eval、MMLU）上，精度损失控制在3%以内，远优于同等压缩比的朴素二值化方案。

## 实用意义：让大模型“轻装上阵”

BitCPM-CANN的参数量约7B，但量化后模型大小从14GB降至不足2GB，可在消费级GPU甚至手机SoC上运行。这直接降低了大模型的部署门槛：一方面，企业无需昂贵显卡即可在本地私有化部署，保障数据安全；另一方面，移动端、IoT设备首次有可能承载大语言模型推理，推动离线智能助手、实时翻译等场景落地。更为关键的是，1.58-bit计算可大幅减少内存带宽消耗，推理速度相比4-bit提升2-3倍，能效比提升高达5倍。

## 行业分析：极低精度量化的“破冰”信号

当前大模型行业正从“参数竞赛”转向“应用落地”，但算力与功耗瓶颈日益突出。BitCPM-CANN证明了 **1~2-bit量化在学术与工程结合下的可行性**，其意义不亚于当年CNN中1-bit网络的突破。不过，也需要客观看待：三值量化对模型架构有特定依赖，并非所有大模型都能无损迁移；且当前仅支持部分推理框架（如LMDeploy），生态兼容性仍需完善。未来，随着CANN架构向更大模型（如100B+）推广，以及硬件厂商对三值矩阵乘的专用支持，极低比特AI或将重塑边缘智能的格局。