无需调优的多文本长视频生成一致性增强:时频分析、提示对齐和理论
本研究提出了一种基于时频的时间注意力重加权算法(TiARA),旨在解决长视频生成中的一致性问题,特别是平滑性和场景过渡。同时,提出了提示插值管道PromptBlend,显著提升多提示生成视频的质量。
原文中文,约300字,阅读约需1分钟。
本研究提出了一种基于时频的时间注意力重加权算法(TiARA),旨在解决长视频生成中的一致性问题,特别是平滑性和场景过渡。同时,提出了提示插值管道PromptBlend,显著提升多提示生成视频的质量。