英伟达LocateAnything模型发布：实时高精度定位赋能机器人与AI Agent交互

2026.05.30 10:45

5月29日，英伟达联合香港理工大学、南京大学发布LocateAnything视觉语言定位模型。该模型针对机器人感知与AI Agent实时交互设计，采用Parallel Box Decoding技术，H100 GPU上达12.7框/秒，基于1200万图像和1.38亿查询训练，实测超越Qwen3-VL等模型，推动多领域应用升级。

在机器人与AI Agent的实时交互场景里，视觉定位的精度和速度往往难以两全，这是目前行业面临的核心挑战之一。5月29日，英伟达联合香港理工大学、南京大学等机构推出了LocateAnything视觉语言定位模型，正是为了应对这一问题。该模型专门针对机器人感知与AI Agent实时交互设计，能从图像或截图中高速、精准定位指定对象并输出检测框，为相关应用提供关键技术支撑。

LocateAnything模型的核心优势在于平衡了速度与精度。它采用Parallel Box Decoding技术，不同于传统的多步迭代解码方式，能一步预测出边界框坐标，显著减少了计算成本。在H100 GPU上，该模型处理速度达到12.7框/秒，同时保持着高精度表现。为了适配不同场景的需求，模型提供了Fast、Slow和Hybrid三种运行模式：Fast模式优先保证实时性，适合机器人导航这类低延迟场景；Slow模式更注重定位精度，能用于工业质检等对准确性要求极高的任务；Hybrid模式则兼顾两者，满足大多数通用场景的需求。

模型的泛化能力来自大规模训练数据集的支持。英伟达联合研究机构搭建了一个包含1200万张图像和1.38亿条语言查询的训练库，覆盖了各种场景和对象类型，确保模型在复杂环境下也能稳定发挥。实际测试结果表明，LocateAnything在LVIS、ScreenSpot-Pro等权威基准测试中，定位精度和速度都明显超过了Qwen3-VL、Rex-Omni等现有主流模型，尤其是在ScreenSpot-Pro基准上，平均精度提升了15%以上。

该模型的推出将加速机器人与AI Agent的落地应用。在工业领域，机器人可通过LocateAnything快速定位生产线上的缺陷部件，提升质检效率；在家庭服务场景，AI Agent能精准识别用户指定的物品，实现更自然的交互；在自动驾驶辅助系统中，模型可实时定位道路标识与障碍物，增强安全性能。这一技术突破为多模态交互领域提供了新的解决方案，让AI从被动响应向主动感知迈进。

最近，多模态交互成了AI行业的热点方向，谷歌、Meta等巨头都在布局视觉语言融合技术。谷歌4月发布的Gemini Advanced模型增强了视觉理解能力，但在实时定位速度上仍有提升空间；Meta的SAM模型在图像分割领域表现突出，但缺乏语言交互能力。阿里达摩院的Qwen3-VL之前在视觉定位任务中表现领先，这次被LocateAnything超越，也体现了英伟达在该领域的技术优势。随着模型的开源和优化，LocateAnything有望成为机器人与AI Agent视觉定位的标准工具之一。

作品声明：内容由AI生成