小红花·文摘

本研究探讨了文本到视频生成模型在动态对象交互中的不足，并提出通过外部反馈提升对象运动真实性的方法。实验结果表明，利用视觉语言模型提供的细致反馈显著改善了复杂对象交互的视频质量，尤其是使用AI反馈的奖励信号，提高了生成结果的人类感知质量。