MIT News - Artificial intelligence ·

一种更好的复杂视觉任务规划方法

💡 原文英文，约1000词，阅读约需4分钟。

📝

内容提要

麻省理工学院的研究人员开发了一种基于生成性人工智能的长期视觉任务规划方法，成功率约为70%。该系统结合视觉-语言模型与正式规划能力，能够处理复杂视觉输入并生成有效规划，适用于多种实际应用。

🎯

关键要点

麻省理工学院研究人员开发了一种基于生成性人工智能的长期视觉任务规划方法，成功率约为70%。
该系统结合视觉-语言模型与正式规划能力，能够处理复杂视觉输入并生成有效规划。
该方法使用专门的视觉-语言模型来感知图像中的场景，并模拟达到目标所需的动作。
系统自动生成可供经典规划软件使用的文件，计算实现目标的计划。
研究人员构建了一个自动规划系统，称为VLM引导的正式规划（VLMFP），结合了视觉-语言模型和正式规划软件的优点。
VLMFP生成两个独立的PDDL文件，一个定义环境和有效动作，另一个定义初始状态和目标。
SimVLM模型成功描述场景并模拟动作，85%的实验中检测到目标达成。
VLMFP在六个2D规划任务中成功率约为60%，在两个3D任务中超过80%。
该框架能够在不同情况下进行泛化，解决多种视觉基础的规划问题。
未来研究将使VLMFP处理更复杂的场景，并探索识别和减轻视觉-语言模型的幻觉的方法。

🏷️

继续阅读

Gemini在Google Sheets中刚刚实现了领先的性能。
Gemini在Sheets中的表现已达到高水平，能够独立处理复杂电子表格，成功率为70.48%，超越竞争对手，接近人类专家水平。
刚刚，微信被曝打造绝密 AI 智能体
腾讯正在开发一款内嵌于微信的AI智能体，旨在帮助用户打车、买菜等，成为生活管家。该项目被列为最高优先级，计划于年中测试，第三季度上线。与阿里和字节跳动相比...
Green Field Sound 为开放媒体联盟带来音频解决方案专业知识
开放媒体联盟(AOMedia)宣布Green Field Sound成为发起人，将与AOMedia合作推进沉浸式音频模型与格式(IAMF)的制定，以提升数...
Salesforce推出Agentforce联络中心，整合AI客服、语音和CRM数据
Salesforce 对 Agentforce Contact Center 进行了升级，整合语音、数字渠道、CRM 数据和 AI，提升客户服务效率。AI...
英伟达将推出NemoClaw开源智能体平台帮助企业部署可以执行任务的AI智能体
英伟达将推出开源AI智能体平台NemoClaw，帮助企业部署AI执行内部任务。该平台集成安全和隐私工具，提升效率并满足合规要求，兼容多种设备，预计将在下周...
Bitmovin 播放器迎来了全新的 UI v4 界面
Bitmovin播放器推出了UI v4，优化了用户界面，提升了跨设备的易用性和视觉体验。新界面简化了控件布局，改善了视觉层次，便于用户操作，并提供了迁移路...

一种更好的复杂视觉任务规划方法

内容提要

关键要点

标签

继续阅读