本研究提出AKiRa框架,解决文本条件视频扩散中用户对摄像机运动和光学参数控制不足的问题,显著提升视频生成的可控性和视觉效果。
我们提出了一种无需训练的摄像机运动控制方案,能够与现有的视频扩散模型结合。该方法仅需一个图像或文本提示,即可生成可控摄像机的视频。通过重排噪点像素,实现视频中的摄像机运动控制,实验结果表明其鲁棒性和生成动态内容的能力。
我们提出了一种无需训练的方法 CamTrol,可以通过图像或文本提示生成具有摄像机运动控制的视频。通过重新排列噪点像素,实现了摄像机运动的控制,能够生成动态内容的三维旋转视频。
本文提出了一种无需训练的解决方案,用于控制现有视频扩散模型的摄像机运动。该方法不需要有监督微调或自监督训练,只需一个图像或文本提示作为输入即可生成可控摄像机的视频。实验证明了该方法在控制生成视频的摄像机运动方面的鲁棒性。
我们提出了一种无需训练的视频运动转移模型(COMD),实现了对摄像机运动的灵活控制。通过单次和少次摄像机运动分离方法,从源视频和具有相似摄像机运动的视频中提取摄像机运动。最后,我们提出了一种运动组合方法,使模型具有更加可控和灵活的摄像机控制。
本研究通过模仿学习训练自主智能体在《毁灭战士2》游戏中进行游戏,发现模仿学习在摄像机运动和轨迹数据方面比强化学习更接近人类行为。智能体可以模仿真实玩家的不同游戏风格,表现出攻击性、被动性或接近人类的行为。研究提出了在视频游戏中引入更多深度和接近人类行为的方法。模仿学习智能体在数据集中表现与普通玩家相当,优于最差的玩家,但性能不如强化学习方法强。
完成下面两步后,将自动完成登录并继续当前操作。