BriefGPT - AI 论文速递 ·

探索大型基础模型在开放词汇 HOI 检测中的潜力

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

本研究提出了KI2HOI框架，结合视觉语言模型和大型语言模型，改进了零样本人物-物体交互检测。通过动词提取和交互表示解码器，该模型在HICO-DET和V-COCO数据集上表现优异，提升了交互理解和检测性能。

🎯

关键要点

本研究提出了KI2HOI框架，结合视觉语言模型和大型语言模型，改进了零样本人物-物体交互检测。
通过动词提取解码器将动词查询转换为特定交互类别的表示，设计了基于视觉语义的动词特征学习模块。
创新的交互表示解码器通过交叉注意机制提取信息丰富的区域，提升了交互理解和检测性能。
在HICO-DET和V-COCO数据集上的实验表明，该模型在零样本和全监督设置上优于以前的方法。

❓

延伸问答

KI2HOI框架的主要功能是什么？

KI2HOI框架结合视觉语言模型和大型语言模型，改进了零样本人物-物体交互检测。

该研究如何提升交互理解和检测性能？

通过动词提取解码器和交互表示解码器，利用交叉注意机制提取信息丰富的区域。

KI2HOI框架在数据集上的表现如何？

在HICO-DET和V-COCO数据集上，该模型在零样本和全监督设置上优于以前的方法。

动词提取解码器的作用是什么？

动词提取解码器将动词查询转换为特定交互类别的表示形式。

KI2HOI框架的创新点有哪些？

框架的创新点包括基于视觉语义的动词特征学习模块和交互表示解码器的交叉注意机制。

该研究的实用价值体现在哪里？

该模型在HICO-DET数据集上表现卓越，具有很好的实用价值，能够识别新的人-物交互类别。

🏷️

标签

KI2HOI框架人物-物体交互大型语言模型视觉语言模型零样本检测

➡️

继续阅读

不同模型厂同一家Agentic Infra，AGI时代的地基终于浮出水面
大模型时代的共同选择
xLOC – 纯网页实现 iOS 虚拟定位，据说可过丁丁、苹果手表高血压通知、睡眠呼吸暂停检测
更新：昨日有同学留言：通过 WLOC 成功开了高血压通知和睡眠呼吸暂停检测。使用 Apple Watch 的同学可以研究一下。还记得前几天的iOS 虚拟...
实测千问 Qwen3.8 预览版，国产模型开始围攻 Fable 5
还有 DeepSeek、智谱、MiniMax……#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
光鉴科技发布具身智能视觉感知方案，为物理AI提供视觉感知基础
1.5B开源通用VLA模型，冲进具身智能第一梯队
面壁智能发布MiniCPM-Robot系列模型
Kimi K3上线48小时：模型爆火，GPU爆肝，会员停售
市场表现也跟着加速狂飙