量子位 ·

大模型首次拥有“脖子”！纽大团队实现360度类人视觉搜索

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

纽约大学团队在论文中提出类人视觉搜索，赋予大模型360度视觉能力，能够在真实环境中主动搜索目标。研究构建了新基准H*Bench，以评估智能体在复杂场景中的表现，推动视觉空间推理向具身主动范式转型。

🎯

❓

类人视觉搜索允许智能体在全景图像中自主旋转头部进行目标搜索，具备交互性和具身性。

H*Bench基准测试旨在评估智能体在复杂环境中的视觉空间推理能力，突破传统测试的局限。

研究通过监督微调和多轮强化学习，将多模态大模型转化为有效的视觉搜索智能体。

主动视觉搜索在全景图中旋转，符合人类直觉，避免了全景图的畸变，效果优于被动分析。

主要错误类型包括感知能力不足、缺乏物理常识和视觉-动作不匹配等。

类人视觉搜索任务分为类人物体搜索和类人路径搜索两类。

🏷️

Browser Harness是一种浏览器操控工具：让大模型自主完成任务！
Browser Harness是一种自愈式浏览器操控工具，允许大语言模型自主完成任务。它通过CDP协议与Chrome直接连接，去除了传统框架的限制。该工具...
大规模自主AI：Adobe代理与NVIDIA和WPP解锁突破性的创意智能
Adobe与NVIDIA和WPP合作，推动自主AI在创意营销中的应用。品牌通过智能系统快速生成个性化内容，提升客户体验。NVIDIA的OpenShell运...
在数据与人工智能峰会上亲身体验代理、氛围编码等更多内容
Databricks将在2026年6月14日至18日于旧金山举办数据与人工智能峰会，提供新培训课程和认证。提前注册可享受50%折扣，现场认证考试费用为10...
Pretext.js Bypasses DOM Layout Reflow, Enabling Advanced UX Patterns at 120 FPS
Cheng Lou, a Midjourney engineer, recently released Pretext, a 15KB open-sour...
Textual – 日志记录到文件和Textual控制台
本文介绍了如何在Textual中使用Python的日志模块进行日志记录。Textual提供了内置的日志处理器TextualHandler，用户可以轻松创建...
Subagents in Gemini CLI Enable Task Delegation and Parallel Agent Workflows
Google has introduced subagents in Gemini CLI, a new capability designed to h...