BriefGPT - AI 论文速递 ·

InterDreamer: 零激活文本向三维动态人物 - 物体交互

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

本研究提出了一种新方法，通过文本生成高质量的三维人物-物体交互场景。该方法利用双分支扩散模型和互动预测扩散模型，增强了人和物体之间的动作一致性。实验结果表明，该方法在生成逼真互动方面优于现有技术，能够有效处理复杂的空间关系和多样的物体形状。

🎯

关键要点

本研究利用 InterFusion 框架，通过人体姿势估计实现高质量三维人物-物体交互场景的生成。
采用双分支扩散模型（HOI-DM）和互动预测扩散模型（APDM）来增强人和物体之间的动作一致性。
APDM 可以纠正 HOI-DM 的潜在错误，并随机生成接触点以多样化生成的动作。
提出 CG-HOI 方法，通过显式建模人体表面与物体几何之间的接触，生成更真实的交互序列。
THOR 模型引入关系干预机制，增强人体和物体之间的时空关系，生成合理的互动。
构建了 Text-BEHAVE 数据集，将文本描述与最大 3D HOI 数据集无缝集成，验证模型有效性。
D3D-HOI 数据集用于评估人-物交互的质量，包含多种现实场景和摄像机视角。
GenZI 是第一个零样本方法，利用视觉-语言模型生成 3D 人与场景的交互，避免对捕获的 3D 数据的需求。
KI2HOI 框架整合视觉语言模型的知识，改进零样本人物-物体交互检测，优于以前的方法。
研究探索社交场景下人和物体之间相互作用识别的方法，并提出硬负样本采样策略。

❓

延伸问答

InterDreamer 的主要创新点是什么？

InterDreamer 通过双分支扩散模型和互动预测扩散模型，增强了人和物体之间的动作一致性，生成高质量的三维人物-物体交互场景。

CG-HOI 方法是如何提高三维交互生成的真实性的？

CG-HOI 方法通过显式建模人体表面与物体几何之间的接触，生成更真实的交互序列。

GenZI 方法的优势是什么？

GenZI 是第一个零样本方法，利用视觉-语言模型生成 3D 人与场景的交互，避免了对捕获的 3D 数据的需求。

THOR 模型如何增强人和物体之间的时空关系？

THOR 模型通过关系干预机制引导人体和物体运动，增强了它们之间的时空关系。

D3D-HOI 数据集的用途是什么？

D3D-HOI 数据集用于评估人-物交互的质量，包含多种现实场景和摄像机视角。

KI2HOI 框架的主要功能是什么？

KI2HOI 框架整合视觉语言模型的知识，改进零样本人物-物体交互检测。

🏷️

标签

三维场景人物交互动作一致性扩散模型空间关系

➡️

继续阅读

使用 DDNS 动态更新 ZZ.AC 域名
现在 ZZ.AC 域名支持 DDNS 功能了，本文跟大家分享 DDNS 功能的设计理念和使用方法。
阿里团队自研 AOQ 协议，为多模态 AI 构建确定性传输底座
随着大模型向多模态全面演进，AI 应用正从云端走向终端。端侧公网“最后一公里”的网络波动与 AI 推理所需要海量数据的实时传输需求之间，存在较大的冲突，会...
台积电拟于2027年最高提价10%；苹果拟推出设备租赁计划以提振销量；2026年《财富》中国500强发布
（全球TMT 2026年07月22日讯）今日要点：台积电拟于2027年最高提价10%；三星电子规划未来5年在韩 […]
让 AI 快速「读懂」你的代码仓：Joy-Code-Graph 云端图谱服务的三次进化
代码知识图谱不是要取代 AI 的智能，而是要补齐它对代码全局关系的认知盲区。当 AI 能一眼看清「谁调用了谁、改动会波及哪里」，它写出的代码才真正靠谱；当...
ResULIC：语义残差编码与压缩感知扩散的超低码率图像压缩 | ICML 2025
图像压缩的核心目标是在尽可能低的码率下保留尽可能高的视觉质量。近年来，学习式图像压缩方法在客观指标和主观感知质量上取得了显著进展，但在极低码率场景下仍面临...
业内首款超算+智算的大规模计算底座，在WAIC上我们找到了
一颗“不走寻常路”的芯