AMD 发布 vLLM-ATOM 插件,显著提升国产大模型推理性能
近日,AMD 正式推出针对 vLLM 推理框架的优化插件——vLLM-ATOM,旨在通过深度适配 AMD ROCm 软件栈与 Instinct 系列 GPU,显著提升国产大语言模型(如 DeepSeek、Qwen、Baichuan 等)的推理吞吐量与响应速度。这一举措不仅为国产 AI 生态提供了高性能、低成本的硬件-软件协同方案,也标志着 AMD 在 AI 推理市场中的战略布局进一步深化。
技术背景与核心优化
vLLM 作为当前最主流的大模型推理引擎之一,凭借 PagedAttention 显存管理机制和连续批处理技术,已被广泛应用于云端部署场景。AMD 推出的 vLLM-ATOM 插件并非简单移植,而是针对 ROCm 运行时与 AMD CDNA 架构进行了底层重构:包括优化 Kernel 调度策略、利用 Matrix Core 加速矩阵运算、以及改进显存带宽利用率。特别是针对国产模型常用的 MoE(混合专家)架构,插件通过动态路由与负载均衡算法,将专家并行推理的延迟降低了 30% 以上。
性能实测数据
根据 AMD 官方公布的测试结果,在单张 AMD Instinct MI250 加速卡上,部署 Qwen2-72B 模型(INT8 量化)时,vLLM-ATOM 插件使首 Token 延迟从 380ms 降至 220ms,吞吐量从 450 tokens/s 提升至 720 tokens/s,提升幅度超过 60%。对于 DeepSeek-V2 这类超大规模 MoE 模型,在 4 卡 MI300X 集群中,推理效率相比未优化版本提高了近 2 倍,且显存占用减少了约 15%。这些数据表明,AMD 已补齐了此前在大模型推理软件生态上的短板。
对国产 AI 生态的意义
长期以来,国产大模型的推理部署高度依赖 NVIDIA CUDA 生态,硬件选择受限且成本高昂。AMD vLLM-ATOM 插件的推出,为国内企业和研究机构提供了“ROCm + 国产模型”的可行替代方案。尤其在国家信创政策推动下,该插件可无缝适配国产操作系统(如统信 UOS、麒麟),并支持主流 Hugging Face 格式模型一键转换,降低了迁移门槛。未来,随着 AMD 持续优化算子库与动态编译能力,国产大模型有望在更广泛的场景中实现自主可控的高效推理。