VideoPoet: 用于零样本视频生成的大型语言模型
原文中文,约400字,阅读约需1分钟。发表于: 。VideoPoet 是一种语言模型,能够从多种信号条件下合成配有匹配音频的高质量视频。该模型采用解码器式 Transformer 架构处理多模态输入,包括图像、视频、文本和音频,通过两个阶段的预训练和任务特定的适应来训练。我们通过实证结果展示了该模型在零样本视频生成方面具有最先进的能力,特别是其生成高保真度的动作。
本文研究了视觉语言模型的零样本跨语言迁移,通过基于Transformer模型的方法学习多语言多模态嵌入,实验结果表明该方法能显著提高非英语语言的视频搜索效果,并在多语言注释的情况下优于基准线。