AMD vLLM-ATOM插件落地：国产大模型推理性能跃升，加速国产化部署

2026.05.12 11:50

近日AMD发布vLLM-ATOM插件，专为国产大模型在Instinct系列GPU上的推理优化，不改变现有工作流，显著提升DeepSeek-R1、Kimi-K2等模型性能，低学习成本助力开发者迁移，推动国产化AI生态发展。

国产大模型近年来迭代速度很快，但推理阶段的硬件适配和性能优化仍是阻碍其落地的关键问题，尤其是在非NVIDIA生态的硬件平台上，常面临性能损耗大或开发成本高的情况。近日，AMD在线上技术峰会推出vLLM-ATOM插件，专门针对大语言模型部署场景做了优化，目的是解决国产大模型在AMD硬件上的推理效率问题。这款插件由AMD研发团队打造，专为Instinct系列GPU定制，支持DeepSeek-R1、Kimi-K2等主流国产大模型，开发者无需改变现有的vLLM工作流，就能实现性能的平滑提升。

从技术逻辑来看，vLLM-ATOM插件依托vLLM框架高显存利用率的优势，结合AMD GPU的架构特性做了深度优化。比如，它利用ROCm生态的张量核心加速能力，支持FP8精度推理，在保证模型精度的同时降低计算资源消耗；通过内存池技术实现显存的高效复用，减少CPU与GPU之间的数据传输延迟；同时，插件还针对国产大模型的结构特点做了算子优化，进一步提升推理吞吐量。AMD官方测试数据显示，在Instinct MI300X GPU上运行DeepSeek-R1模型时，使用vLLM-ATOM插件后的推理吞吐量比原生vLLM框架提升35%，延迟降低22%；针对Kimi-K2模型，吞吐量提升30%，延迟降低28%，性能提升效果很明显。

这款插件的推出有多重意义：一方面，它为国产大模型厂商提供了低成本的性能优化方案——开发者不用重新编写适配代码，只要安装插件就能在AMD硬件上获得更好的推理性能，降低了技术迁移的门槛；另一方面，AMD通过这款插件加深了与国产大模型生态的联系，提升了Instinct系列GPU在AI推理市场的竞争力，也有助于打破当前AI硬件市场的单一化格局，推动国产化AI基础设施的发展。

行业近期动态中，2024年6月浪潮信息发布了新一代AI推理服务器NF5488A5，它集成4颗AMD Instinct MI300X GPU，还预装了vLLM-ATOM插件，能为国产大模型提供高效部署方案；竞争对手方面，NVIDIA在2024年5月更新了TensorRT-LLM 1.10版本，新增对Qwen-2、Llama 3等模型的优化支持，在A100 GPU上推理性能提升20%；Intel则推出OpenVINO 2024.2版本，加强了CPU与Arc GPU的混合加速能力，针对大模型推理优化了内存管理，目标是覆盖边缘与数据中心场景的灵活部署需求。

作品声明：内容由AI生成