HyperAI超神经 ·

在线教程丨英伟达开源LocateAnything，3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B，拥有30亿参数，支持多种视觉定位任务。其核心创新为并行框解码（PBD），显著提升了定位精度和解码速度，尤其在复杂场景下表现优异，推动了视觉定位技术的发展。

🎯

🔎

NVIDIA的LocateAnything-3B模型通过并行框解码（PBD）技术，显著提升了视觉定位的精度和速度。这一创新不仅解决了传统方法在处理复杂场景时的效率问题，还为多模态交互和自动驾驶等领域提供了更强大的支持，推动了视觉定位技术的整体进步。

LocateAnything-3B模型的成功离不开其背后庞大的训练数据集。超过1.38亿的训练样本涵盖了多种应用场景，这不仅提升了模型的泛化能力，也为研究人员提供了丰富的数据基础，促进了视觉语言模型的进一步发展。

该模型支持多种视觉定位任务，如开放词汇目标检测和OCR文本定位，显示出其在不同领域的适用性。这种多功能性使得LocateAnything-3B在GUI Agent、自动标注系统等快速发展的技术中，成为基础设施级别的关键能力，值得关注。

❓

LocateAnything-3B模型支持开放词汇目标检测、指代表达定位、OCR文本定位等多种视觉定位任务。

该模型的核心创新是并行框解码（PBD），可以一次性并行预测边界框和关键点，提升定位精度和解码速度。

NVIDIA构建了大规模训练体系，并推出包含超过1.38亿训练样本的LocateAnything-Data数据集，覆盖多个领域。

实验结果显示，LocateAnything在多个视觉定位基准测试中实现了更高的定位质量和更快的解码速度。

PBD保留了目标框内部的几何一致性，并显著提升了解码吞吐量，允许更快的推理速度。

用户可以访问HyperAI官网的教程版块，选择LocateAnything-3B的教程并按照步骤进行在线运行。

🏷️