AMD 发布 vLLM-ATOM 插件，显著提升国产大模型推理性能

2,859 0

近日，AMD 正式推出针对 vLLM 推理框架的优化插件——vLLM-ATOM，旨在通过深度适配 AMD ROCm 软件栈与 Instinct 系列 GPU，显著提升国产大语言模型（如 DeepSeek、Qwen、Baichuan 等）的推理吞吐量与响应速度。这一举措不仅为国产 AI 生态提供了高性能、低成本的硬件-软件协同方案，也标志着 AMD 在 AI 推理市场中的战略布局进一步深化。

技术背景与核心优化

vLLM 作为当前最主流的大模型推理引擎之一，凭借 PagedAttention 显存管理机制和连续批处理技术，已被广泛应用于云端部署场景。AMD 推出的 vLLM-ATOM 插件并非简单移植，而是针对 ROCm 运行时与 AMD CDNA 架构进行了底层重构：包括优化 Kernel 调度策略、利用 Matrix Core 加速矩阵运算、以及改进显存带宽利用率。特别是针对国产模型常用的 MoE（混合专家）架构，插件通过动态路由与负载均衡算法，将专家并行推理的延迟降低了 30% 以上。

性能实测数据

根据 AMD 官方公布的测试结果，在单张 AMD Instinct MI250 加速卡上，部署 Qwen2-72B 模型（INT8 量化）时，vLLM-ATOM 插件使首 Token 延迟从 380ms 降至 220ms，吞吐量从 450 tokens/s 提升至 720 tokens/s，提升幅度超过 60%。对于 DeepSeek-V2 这类超大规模 MoE 模型，在 4 卡 MI300X 集群中，推理效率相比未优化版本提高了近 2 倍，且显存占用减少了约 15%。这些数据表明，AMD 已补齐了此前在大模型推理软件生态上的短板。

对国产 AI 生态的意义

长期以来，国产大模型的推理部署高度依赖 NVIDIA CUDA 生态，硬件选择受限且成本高昂。AMD vLLM-ATOM 插件的推出，为国内企业和研究机构提供了“ROCm + 国产模型”的可行替代方案。尤其在国家信创政策推动下，该插件可无缝适配国产操作系统（如统信 UOS、麒麟），并支持主流 Hugging Face 格式模型一键转换，降低了迁移门槛。未来，随着 AMD 持续优化算子库与动态编译能力，国产大模型有望在更广泛的场景中实现自主可控的高效推理。