本研究探讨如何增强用户对语言模型生成文本属性的控制,提出使用连续控制信号的方法,并展示其在控制文本长度方面的优势。研究的开源代码和数据集具有重要应用价值。
本研究提出DisPose方法,解决传统人类图像动画中的控制信号稀疏问题,通过解耦骨骼姿态提高动画的精确性和灵活性,生成高质量视频,优于现有技术。
ControlVideo是一种无需训练的文本到视频生成模型,能够快速生成高质量视频。Video-ControlNet通过控制信号生成视频,DragNUWA提供精细控制,MoVideo考虑运动感知,TrackDiffusion改善多目标跟踪,Motion-I2V和Direct-a-Video允许用户控制对象和相机运动。这些新方法整合语义和动作线索,提升视频质量和连贯性。
完成下面两步后,将自动完成登录并继续当前操作。