大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

💡 原文中文,约3400字,阅读约需8分钟。
📝

内容提要

纽约大学团队在论文中提出类人视觉搜索,赋予大模型360度视觉能力,能够在真实环境中主动搜索目标。研究构建了新基准H*Bench,以评估智能体在复杂场景中的表现,推动视觉空间推理向具身主动范式转型。

🎯

关键要点

  • 纽约大学团队提出类人视觉搜索,赋予大模型360度视觉能力。
  • 研究构建新基准H*Bench,评估智能体在复杂场景中的表现。
  • 类人视觉搜索任务允许智能体在全景图像中自主旋转头部搜索目标。
  • H*Bench涵盖交通枢纽、大型零售场所等复杂环境,测试智能体的高级视觉空间推理能力。
  • 研究将视觉空间推理从被动范式转型为具身的主动范式。
  • 类人视觉搜索包括类人物体搜索和类人路径搜索两类问题。
  • 研究通过多模态推理任务形式化搜索问题,结合头部旋转与视觉推理。
  • H数据集包含约3000个带标注的任务实例,提供广泛的地理覆盖范围。
  • 多模态大模型通过监督微调和多轮强化学习转化为有效的视觉搜索智能体。
  • 实验表明,经过训练后,模型在目标搜索和路径搜索上的准确率均有所提高。
  • 研究发现,主动视觉搜索优于被动分析,符合人类直觉。
  • 尽管后训练提高了感知-运动能力,但高级推理仍存在根本瓶颈。

延伸问答

类人视觉搜索的主要特点是什么?

类人视觉搜索允许智能体在全景图像中自主旋转头部进行目标搜索,具备交互性和具身性。

H*Bench基准测试的目的是什么?

H*Bench基准测试旨在评估智能体在复杂环境中的视觉空间推理能力,突破传统测试的局限。

研究如何将多模态大模型转化为视觉搜索智能体?

研究通过监督微调和多轮强化学习,将多模态大模型转化为有效的视觉搜索智能体。

主动视觉搜索相比被动分析有什么优势?

主动视觉搜索在全景图中旋转,符合人类直觉,避免了全景图的畸变,效果优于被动分析。

研究中发现的主要错误类型有哪些?

主要错误类型包括感知能力不足、缺乏物理常识和视觉-动作不匹配等。

类人视觉搜索任务分为哪两类?

类人视觉搜索任务分为类人物体搜索和类人路径搜索两类。

➡️

继续阅读