BriefGPT - AI 论文速递 ·

VirtualModel：通过扩散模型生成具有对象识别保持性的人 - 对象互动图片以用于电子商务营销

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文研究了通过人物与物体的交互信息改进文本到图像的扩散模型，提出了可插拔的交互控制模型和双分支扩散模型（HOI-DM），以生成逼真的人-物互动。同时，开发了互动预测扩散模型（APDM），提高了接触区域的预测准确性。实验结果表明，该方法在生成多样化的三维人-物互动方面表现优异，并有效解决了类别分布不平衡的问题。

🎯

关键要点

研究了使用人物-物体交互信息对文本到图像扩散模型进行条件控制的问题。
提出了一种可插拔的交互控制模型，通过交互嵌入学习人物-物体交互信息。
开发了双分支扩散模型（HOI-DM）来生成人和物体的动作，并促进一致的动作。
开发了互动预测扩散模型（APDM）来预测人和物体之间的接触区域，提高预测准确性。
通过注释BEHAVE数据集的文本描述训练和评估方法，产生多样化的三维人-物互动。
提出了一种基于虚拟图像学习的方法解决人-物交互检测任务中的类别分布不平衡问题。
利用HOIDiffusion方法生成逼真且多样化的三维手物体交互数据，提高感知系统效果。
提出了一种名为InterDreamer的框架，能够以零样本方式生成与文本指令对齐的3D人物-物体交互序列。
提出新的HOI检测方案DiffHOI，通过预训练的文本-图像扩散模型增强检测器性能，缓解长尾问题。

❓

延伸问答

如何通过人物-物体交互信息改进文本到图像的扩散模型？

通过提出可插拔的交互控制模型和双分支扩散模型（HOI-DM），可以更好地学习和调节人物-物体交互信息，从而提高模型的性能。

互动预测扩散模型（APDM）有什么作用？

APDM用于预测人和物体之间的接触区域，提高接触区域的预测准确性，并能够随机生成接触点以多样化生成的动作。

如何解决人-物交互检测任务中的类别分布不平衡问题？

通过基于虚拟图像学习的方法，结合虚拟图像和真实图像训练模型，构建伪标签，从而显著改善类别分布不平衡问题。

HOIDiffusion方法的主要优势是什么？

HOIDiffusion方法能够生成逼真且多样化的三维手物体交互数据，从而提高感知系统的效果。

InterDreamer框架的特点是什么？

InterDreamer框架能够以零样本方式生成与文本指令对齐的逼真和连贯的3D人物-物体交互序列。

DiffHOI检测方案如何增强检测器性能？

DiffHOI通过预训练的文本-图像扩散模型增强检测器性能，减少交互预测的歧义，并有效缓解长尾问题。

🏷️