量子位 ·

北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

北京大学提出多模态提示学习方法，利用提示词教大模型理解人物交互关系，通过视觉空间线索和条件提示提高泛化能力。研究团队还提出零样本人物交互检测新框架，实验证明在未见类别上取得最佳性能，具有潜力。

🎯

关键要点

北京大学提出多模态提示学习方法（CMMP），利用提示词教大模型理解人物交互关系。
CMMP方法有效解决了未见类别的识别问题，大幅提升了模型性能。
CMMP通过视觉空间线索和条件提示学习提高对未见类别的泛化能力。
研究团队提出零样本人物交互检测的新框架，将其分为视觉特征提取和交互分类两个子任务。
条件视觉提示和条件语言提示用于分别处理视觉和文本信息，消除依赖性。
团队采用的多模态模型通过对比学习预训练，增强了图像编码器的交互识别能力。
可泛化的交互分类通过一致性约束确保已见和未见类别之间的合理分离。
实验结果表明，CMMP在零样本设置上取得最佳性能，证明了条件多模态提示的有效性。
本研究的模型在泛化能力方面表现优异，能够有效缓解已见和未见类别之间的性能差异。

❓

延伸问答

CMMP方法的主要功能是什么？

CMMP方法利用提示词教大模型理解人物交互关系，提升对未见类别的泛化能力。

CMMP如何解决未见类别的识别问题？

CMMP通过视觉空间线索和条件提示学习，帮助识别未见的人物-物体交互概念。

研究团队提出的零样本人物交互检测框架包含哪些子任务？

框架分为交互性感知的视觉特征提取和可泛化的交互分类两个子任务。

CMMP在实验中表现如何？

CMMP在所有零样本设置上都在未见类上取得了最佳性能，证明了其有效性。

CMMP方法如何提高模型的泛化能力？

通过一致性约束和条件提示，CMMP确保已见和未见类别之间的合理分离，提升泛化能力。

CMMP方法的创新点是什么？

CMMP方法通过条件多模态提示和视觉空间线索的结合，提供了一种新的范式来检测人物交互关系。

🏷️

继续阅读

计算与人工智能中的关键人类因素
麻省理工学院计算机伦理研究研讨会讨论了人工智能对社会的影响，强调伦理与技术进步的结合。专家们探讨了AI与人类价值观的对齐问题，以及在教育中有效使用AI工具...
Cloudflare观测数据显示全网机器人流量已经超过真实人类产生的访问
Cloudflare数据显示，机器人流量已超过真实人类流量，达到57.5%。这一增长与AI智能体的快速采用密切相关。尽管机器人流量在HTTP请求中占比更高...
守护所 — v5的诞生
文章讲述了一位开发者在测试一个拥有255个核心和8个强大图形处理单元的计算系统时的经历。该系统存储了超过1200万对象，但大部分是重复版本。开发者通过解析...
在自主数据库时代，人类的需求为何不会消失
Percona联合创始人Vadim Tkachenko在会议上指出，未来数据库管理员将转变为数据架构师，日常维护将由自动化和人工智能处理，人类将专注于数据...
《Control Resonant》是续集——同时也是一个入门点
《Control Resonant》是2019年游戏《Control》的续集，围绕主角Dylan探索超自然世界。玩家通过Dylan的视角体验超自然现象，游...
国会仍未能就无证监视问题达成一致
国会在重新授权《外国情报监视法》第702条款方面仍未达成一致。特朗普任命比尔·普尔特为国家情报局局长，导致共和党重新授权计划受阻。民主党反对延长该条款，原...