本文提出的ControlVideo模型实现了文本驱动的视频编辑,确保内容的忠实性和时间的一致性。通过引入条件控制信息和改进注意力机制,ControlVideo能够处理140帧视频,显著提升编辑效果和一致性,优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。