大连理工与莫纳什大学团队提出了VLIPP框架,通过视觉语言模型引入物理规律,提升视频生成的物理真实性。该框架分为预测运动路径和生成视频两个阶段,实验结果显示其在物理视频生成方面显著优于现有技术,验证了语言模型与扩散模型结合的潜力。
本研究提出了一种结合合成数据的方法,以提升视频生成模型的物理真实性。通过计算机图形生成的视频,显著减少了伪影并提高了一致性,实验结果表明合成视频有效增强了物理真实性。
完成下面两步后,将自动完成登录并继续当前操作。