通过AI反馈改善文本到视频生成中的动态对象交互

本研究针对文本到视频生成模型在动态对象交互中的表现不佳问题，通过外部反馈提升对象运动的真实性。我们提出一种利用视觉语言模型提供更细致反馈的方法，实验表明，该方法在复杂对象交互的视频质量优化中取得显著改善。尤其是使用AI反馈的奖励信号，显著提高了生成结果的人类感知质量。

本研究针对文本到视频生成模型在动态对象交互中的不足，提出通过视觉语言模型提供外部反馈，以提升对象运动的真实性，从而显著改善视频质量。

ai 动态对象外部反馈文本到视频视觉语言模型视频质量