COLLAGE:基于分层潜在扩散与语言模型的人机协作交互生成
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对协作人机交互生成领域数据集不足的问题,提出了COLLAGE框架,利用大语言模型(LLM)和层次化运动特征向量量化变分自编码器(VQ-VAE)。我们的关键发现是,通过潜在空间中的扩散模型结合LLM生成的运动规划线索,可以实现更具控制和多样性的特定运动生成,推动了机器人、图形和计算机视觉等领域的复杂交互建模的新可能。
我们研究了通过文本指令生成逼真的三维人-物互动。采用模块化设计,将任务分解为简单子任务。开发了双分支扩散模型(HOI-DM)用于生成人物动作,和互动预测扩散模型(APDM)用于预测接触区域。APDM可以独立于HOI-DM工作,纠正错误并增加动作多样性。通过BEHAVE数据集进行训练和评估,结果显示该方法能生成多样化的人-物互动。