OpenVid-1M:一个用于文本到视频生成的大规模高质量数据集
原文中文,约300字,阅读约需1分钟。发表于: 。T2V 生成在最近受到了很大的关注,然而仍面临两个重要的挑战:缺乏精确的开源高质量数据集,以及未充分利用文本信息。为了解决这些问题,我们介绍了 OpenVid-1M,一个精确的高质量数据集,以及一种能够从视觉标记和文本标记中提取结构信息和语义信息的新型多模态视频扩散变换器(MVDiT)的提议。广泛的实验和消融研究验证了 OpenVid-1M 优于以前数据集的优越性和我们的 MVDiT 的有效性。
T2V面临数据集和文本信息利用不足的挑战,通过OpenVid-1M数据集和MVDiT进行解决。实验证实OpenVid-1M优于以前数据集且MVDiT有效。