NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B,拥有30亿参数,支持多种视觉定位任务。其核心创新为并行框解码(PBD),显著提升了定位精度和解码速度,尤其在复杂场景下表现优异,推动了视觉定位技术的发展。
完成下面两步后,将自动完成登录并继续当前操作。