智谱发布GLM-5.1高速AI，全球大模型速度纪录再创新高

1,858 0

事件概述

2025年4月，北京智谱华章科技有限公司正式推出其最新一代基座大模型——GLM-5.1。该模型以“高速AI”为核心定位，在推理速度与吞吐量上实现了跨越式突破，刷新了全球大型语言模型（LLM）的速度纪录。这一发布不仅延续了智谱在中文大模型领域的领跑地位，更标志着大模型从“规模竞赛”向“效率竞赛”的重要转折。

关键技术突破

GLM-5.1的高速性能主要得益于三大技术升级。**其一**，智谱自研的“混合并行推理引擎”将模型激活参数利用率提升至90%以上，同时通过动态稀疏计算与算子融合技术，显著降低单次推理的显存占用与计算延迟。**其二**，模型采用了全新的“直觉推理”架构，在保持与前代GLM-4相当参数规模的前提下，将注意力机制的计算复杂度从O(n²)优化至近似O(n)，使得长文本处理场景下的首Token延迟降低至毫秒级。**其三**，智谱同步发布了针对GLM-5.1的硬件适配方案，在国产计算芯片上的推理速度相比此前纪录提升3.6倍。

性能验证与行业意义

在权威基准测试中，GLM-5.1在多个通用任务（如MMLU、GSM8K、C-Eval）上保持顶尖水平的同时，其推理吞吐量达到了每秒单卡处理超过2000个Token（基于H100实测），较GPT-4o快约40%。这一结果意味着，企业级用户在部署同类应用（如实时客服、代码辅助、文档摘要）时，单次请求的响应时间可压缩至百毫秒以内，从而真正实现“交互无感”的大模型体验。

产业影响与展望

GLM-5.1的发布或将重塑大模型落地的商业模式。当前行业普遍面临“模型能力强但部署成本高”的痛点，而速度的突破直接降低了每Token的推理成本。智谱同时宣布，GLM-5.1将率先对开发者开放API调用的“按秒计费”模式，并推出边缘端量化版本。可以预见，高速AI将加速大模型在金融高频交易、自动驾驶实时决策、工业物联网等对延迟敏感领域的渗透，推动AI从“辅助决策”走向“实时决策”的新阶段。