机器之心 ·

27页综述，354篇参考文献！最详尽的视觉定位综述来了

💡 原文中文，约7000字，阅读约需17分钟。

📝

内容提要

AIxiv专栏发布了一篇关于视觉定位的综述，回顾了过去十年的发展，涵盖多种研究设置和应用。文章总结了视觉定位的历史、现状与挑战，并提出未来研究方向，为新手和资深研究者提供了重要参考。

🎯

🔎

视觉定位任务的多样性体现在其多种设置上，包括全监督、弱监督和零样本等。然而，这些设置的定义往往模糊，导致研究之间的比较不够公平。研究者在选择方法时需关注这些定义的差异，以避免误导性结论。

当前视觉定位领域的核心数据集如RefCOCO系列已接近性能极限，限制了新研究的进展。研究者应关注数据集的多样性和新标准的建立，以推动视觉定位任务的进一步发展。

综述中提出的未来研究方向为视觉定位领域提供了重要的指引。研究者可以从广义视觉定位和多模态大语言模型等新兴领域入手，探索更具挑战性的任务设置，以推动技术的进步。

❓

视觉定位是根据给定的文本描述在图像中定位特定区域的任务，旨在模拟人类的多模态理解能力。

综述的主要贡献包括系统总结视觉定位的发展、严格定义各种设置、整理数据集、总结研究难点和提供未来研究方向。

过去十年中，视觉定位经历了从传统方法到基于深度学习的转变，特别是2021年以来，出现了多模态大语言模型等新概念。

当前视觉定位面临定义混乱、数据集受限等问题，急需系统性回顾以规范研究。

视觉定位的应用场景包括人机对话、视觉语言导航、视觉问答、遥感视觉定位等。

这篇综述适合新手入门和资深研究者，帮助他们跟踪最新的研究进展。

🏷️