小红花·文摘

本研究提出了一种零-shot人-物交互合成框架，旨在解决3D人-物交互数据获取困难导致的多样性不足问题。该方法利用预训练的多模态模型，从文本描述生成时序一致的2D人-物交互图像序列，并提升到3D交互，增强物理真实感和语义多样性。

Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，从单幅图像中重建人-物交互(HOI)，并构建了开放词汇的3D HOI数据集Open3DHOI。关键在于高效的高斯HOI优化器，能够有效重建人和物之间的空间交互。

Reconstructing Open-Vocabulary Human-Object Interactions in Natural Scenes

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，利用视觉语言模型(VLM)提升人-物交互检测能力，通过量化HOI三元组的相似性，实现了最先进的检测准确率，推动了可解释的人-物交互分析的发展。

VLM-HOI: Vision Language Model for Interpretable Human-Object Interaction Analysis

BriefGPT - AI 论文速递 ·

ICIP 2024 | 一种新的多人人物交互数据集与NVS基准

实时互动网 ·

D3D-HOI是一个用于人-物交互的三维视频数据集，旨在评估对象质量。研究提出了多种生成动态3D人物-物体交互的方法，包括基于文本生成、交互预测和模块化设计，显著提升了生成的真实感和多样性。新方法如CG-HOI和HIMO数据集，推动了复杂交互场景的生成与控制。

梦HOI：基于扩散先验的主体驱动三维人机交互生成

BriefGPT - AI 论文速递 ·

本文介绍了一种新型深度神经网络HO-RCNN及其在检测人-物交互（HOI）中的应用。该网络结合交互模式特征，显著提升了检测性能。研究提出了多种基于transformer的算法，解决了类别不平衡和多标签需求问题，并在多个数据集上取得了最佳结果。最新方法在HICO-DET和V-COCO上表现优异，训练时间更短，推动了HOI检测技术的发展。

通过交互标签编码和条件决策的高效人-物交互检测

BriefGPT - AI 论文速递 ·

HOI Transformer是一种用于人-物交互检测的算法，通过全局图像上下文推断物体与人的关系，提升了HICO-DET和V-COCO数据集的性能。研究还提出了基于视觉-语言知识蒸馏的零样本人-物交互检测框架，利用CLIP模型实现更准确的检测。新开发的MP-HOI检测器通过多模态提示和大规模数据集优化HOI任务，展现出卓越的零样本能力和广泛应用潜力。

不再看不见：解锁CLIP在生成零-shot人机交互检测中的潜力

BriefGPT - AI 论文速递 ·

本文介绍了一种名为MP-HOI的多模态人-物交互检测器，能够通过文本描述进行开放世界中的交互检测。研究构建了Magic-HOI数据集和高质量合成数据集SynHOI，以优化检测性能。MP-HOI在多个基准测试中表现优异，具备强大的零样本能力，并在HICO-DET和V-COCO数据集上超越现有方法。

探索用于零样本 HOI 检测的条件多模态提示

BriefGPT - AI 论文速递 ·

本文提出了多种基于场景图信息的人-物交互检测方法，包括利用几何特征的图卷积网络、时空变换器和级联架构等。这些方法显著提高了识别准确率，并在多个数据集上验证了其有效性，推动了人-物交互识别的研究进展。

从类别到风景：一个用于视频中多人人物 - 物体交互识别的端到端框架

BriefGPT - AI 论文速递 ·

本研究探讨了开放世界环境下的人-物交互识别，提出了新方法和数据集以解决类别不平衡问题并提高检测性能。通过结合虚拟与真实图像、结构化文本知识和视觉语言模型，研究在多个基准测试中取得了最先进的结果，推动了该领域的发展。

多模式提示下的开放世界人物 - 物体交互检测

BriefGPT - AI 论文速递 ·

本文设计了一个框架用于检测和预测视频中的人-物交互，提出了融合人类注视信息和视觉特征的时空变换器。研究了注视与深度学习的结合，开发了新模型Gazeformer和GHO-Diffusion，显著提升了图像字幕和人-物交互检测的性能，并通过实验验证了其在多个数据集上的有效性。

从观察者注视中学习：基于人物 - 物体交互识别的零样本注意预测

BriefGPT - AI 论文速递 ·

本文提出了一种面向视频中长期动作预测的物体中心表示，利用视觉-语言预训练模型提取特定表示。通过双重注意力网络识别人-物交互，并在多个基准测试中验证了其有效性。该模型实现了动作的同时识别和弱空间时间定位，展现了良好的性能。

目标中心动作识别的同时检测和交互推理

BriefGPT - AI 论文速递 ·

该研究聚焦于人-物交互检测，提出了解耦三元组预测和Disentangled Transformer等新方法，显著提升了HICO-DET和V-COCO数据集上的检测性能。通过结合强弱监督数据和视觉语言模型，研究有效解决了样本不均衡问题，并在零样本学习中表现优异。

人物 - 物体交互检测的解耦预训练

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过文本生成高质量的三维人物-物体交互场景。该方法利用双分支扩散模型和互动预测扩散模型，增强了人和物体之间的动作一致性。实验结果表明，该方法在生成逼真互动方面优于现有技术，能够有效处理复杂的空间关系和多样的物体形状。

InterDreamer: 零激活文本向三维动态人物 - 物体交互

BriefGPT - AI 论文速递 ·

该研究提出了一种基于CLIP的人-物交互（HOI）检测框架，通过多种模块提取知识，提高了检测准确性，在HICO-Det数据集上提升了4.04 mAP。此外，研究还探索了零样本人-物交互检测，结合强弱监督数据的方法，显著提升了模型的鲁棒性和性能。实验结果表明，该方法在多个数据集上表现优异，具有实用价值。

通过视觉语言集成实现零样本人 - 物体交互检测

BriefGPT - AI 论文速递 ·