通过AI反馈改善文本到视频生成中的动态对象交互

本研究针对文本到视频生成模型在动态对象交互中的表现不佳问题,通过外部反馈提升对象运动的真实性。我们提出一种利用视觉语言模型提供更细致反馈的方法,实验表明,该方法在复杂对象交互的视频质量优化中取得显著改善。尤其是使用AI反馈的奖励信号,显著提高了生成结果的人类感知质量。

本研究针对文本到视频生成模型在动态对象交互中的不足,提出通过视觉语言模型提供外部反馈,以提升对象运动的真实性,从而显著改善视频质量。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文