本研究提出了一种名为\(\projectname\)的零训练视频优化管道,通过神经符号反馈改善文本到视频生成模型在处理复杂提示时的语义和时间一致性问题。实验结果显示,视频与提示的对齐精度提升近40%。
本研究提出了针对文本到视频生成模型的后门攻击框架BadVideo,利用空间-时间组合和动态元素转化策略,攻击者可以隐秘地将恶意信息嵌入生成的视频中,从而威胁内容审核系统的安全。
本研究提出了一种基于扩散轨迹交集的无模型、零样本、免训练的文本到视频生成方法。该方法通过一致的帧内容生成和控制帧转换时机,显著提升了视频生成的时间一致性和视觉逼真度,实证分析显示用户满意度和量化指标均优于现有方法。
本研究提出MagicComp,一种无需训练的双阶段细化方法,旨在改善文本到视频生成中的属性绑定、空间关系和复杂动作交互问题。实验结果表明,MagicComp在多个基准测试中超越现有方法,展示了其在复杂提示和轨迹可控视频生成中的潜力。
本研究提出了VidCapBench,旨在解决视频字幕评估与文本到视频生成评估之间的关联问题。该方法结合模型标记与人工修正,评估视频的美学和内容,结果显示其优于现有方法,有效指导T2V模型的训练。
N'UWA是一种多模态预训练模型,用于生成和调节视觉数据,表现出色。它在文本到图像生成、文本到视频生成和视频预测等任务上取得了最先进的结果。此外,N'UWA还展示了在文本引导的图像和视频操作任务上的惊人零成本能力。
本文提出了用于评估文本到视频生成的基准FETV,并对四个T2V模型进行了手动评估。研究发现自动评估指标与人工评估相关性较差,提出了两个新的自动评估指标与人工评估相关性更高。
本文介绍了一种无需训练的文本到视频生成方法,利用现有的文本到图像生成方法生成逼真的动态视频。该方法将运动表示明确地分为条件引导和场景运动组成,并引入了稀疏双向时空注意力来改善时序一致性。与其他方法相比,该方法在帧一致性、剪辑评分和条件精度方面表现出卓越性能。
APLA是一种基于扩散模型的文本到视频生成网络结构,通过引入视频生成变换器VGT来提取扰动,改善视频帧之间的一致性。实验证明,生成的视频在一致性方面有明显的改进。
完成下面两步后,将自动完成登录并继续当前操作。