大连理工与莫纳什大学团队提出了VLIPP框架,通过视觉语言模型引入物理规律,提升视频生成的物理真实性。该框架分为预测运动路径和生成视频两个阶段,实验结果显示其在物理视频生成方面显著优于现有技术,验证了语言模型与扩散模型结合的潜力。
完成下面两步后,将自动完成登录并继续当前操作。