通过AI反馈改善文本到视频生成中的动态对象交互 本研究针对文本到视频生成模型在动态对象交互中的表现不佳问题,通过外部反馈提升对象运动的真实性。我们提出一种利用视觉语言模型提供更细致反馈的方法,实验表明,该方法在复杂对象交互的视频质量优化中取得显著改善。尤其是使用AI反馈的奖励信号,显著提高了生成结果的人类感知质量。 本研究针对文本到视频生成模型在动态对象交互中的不足,提出通过视觉语言模型提供外部反馈,以提升对象运动的真实性,从而显著改善视频质量。 ai 动态对象 外部反馈 文本到视频 视觉语言模型 视频质量