英伟达LocateAnything模型发布:实时高精度定位赋能机器人与AI Agent交互

2026.05.30 10:45
5月29日,英伟达联合香港理工大学、南京大学发布LocateAnything视觉语言定位模型。该模型针对机器人感知与AI Agent实时交互设计,采用Parallel Box Decoding技术,H100 GPU上达12.7框/秒,基于1200万图像和1.38亿查询训练,实测超越Qwen3-VL等模型,推动多领域应用升级。

在机器人与AI Agent的实时交互场景里,视觉定位的精度和速度往往难以两全,这是目前行业面临的核心挑战之一。5月29日,英伟达联合香港理工大学、南京大学等机构推出了LocateAnything视觉语言定位模型,正是为了应对这一问题。该模型专门针对机器人感知与AI Agent实时交互设计,能从图像或截图中高速、精准定位指定对象并输出检测框,为相关应用提供关键技术支撑。

LocateAnything模型的核心优势在于平衡了速度与精度。它采用Parallel Box Decoding技术,不同于传统的多步迭代解码方式,能一步预测出边界框坐标,显著减少了计算成本。在H100 GPU上,该模型处理速度达到12.7框/秒,同时保持着高精度表现。为了适配不同场景的需求,模型提供了Fast、Slow和Hybrid三种运行模式:Fast模式优先保证实时性,适合机器人导航这类低延迟场景;Slow模式更注重定位精度,能用于工业质检等对准确性要求极高的任务;Hybrid模式则兼顾两者,满足大多数通用场景的需求。

模型的泛化能力来自大规模训练数据集的支持。英伟达联合研究机构搭建了一个包含1200万张图像和1.38亿条语言查询的训练库,覆盖了各种场景和对象类型,确保模型在复杂环境下也能稳定发挥。实际测试结果表明,LocateAnything在LVIS、ScreenSpot-Pro等权威基准测试中,定位精度和速度都明显超过了Qwen3-VL、Rex-Omni等现有主流模型,尤其是在ScreenSpot-Pro基准上,平均精度提升了15%以上。

该模型的推出将加速机器人与AI Agent的落地应用。在工业领域,机器人可通过LocateAnything快速定位生产线上的缺陷部件,提升质检效率;在家庭服务场景,AI Agent能精准识别用户指定的物品,实现更自然的交互;在自动驾驶辅助系统中,模型可实时定位道路标识与障碍物,增强安全性能。这一技术突破为多模态交互领域提供了新的解决方案,让AI从被动响应向主动感知迈进。

最近,多模态交互成了AI行业的热点方向,谷歌、Meta等巨头都在布局视觉语言融合技术。谷歌4月发布的Gemini Advanced模型增强了视觉理解能力,但在实时定位速度上仍有提升空间;Meta的SAM模型在图像分割领域表现突出,但缺乏语言交互能力。阿里达摩院的Qwen3-VL之前在视觉定位任务中表现领先,这次被LocateAnything超越,也体现了英伟达在该领域的技术优势。随着模型的开源和优化,LocateAnything有望成为机器人与AI Agent视觉定位的标准工具之一。

作品声明:内容由AI生成