小红花·文摘

本研究提出了KI2HOI框架，结合视觉语言模型和大型语言模型，改进了零样本人物-物体交互检测。通过动词提取和交互表示解码器，该模型在HICO-DET和V-COCO数据集上表现优异，提升了交互理解和检测性能。

BriefGPT - AI 论文速递 ·

通过可视化和实验研究改进了DETR框架在人物-物体交互研究中的问题，增强了图像特征，改进了模型的谓词视觉上下文。在HICO-DET和V-COCO基准上超过了最先进的方法，同时保持了较低的训练成本。

BriefGPT - AI 论文速递 ·