本研究提出了T2VTextBench,这是首个评估视频生成模型中文本准确性和时间一致性的人类评估基准。测试结果显示,大多数模型在生成清晰一致的文本方面面临显著挑战,为未来改善视频合成中的文本处理提供了研究方向。
本研究提出了一种新型水印技术LVMark,旨在解决现有水印技术在视频生成模型中处理时序信息的不足。LVMark能够在保持视频质量的同时嵌入水印信息,具有保护视频生成模型所有权的重要价值。
本研究提出了PaintScene4D框架,旨在生成真实感动态4D场景。该框架通过多样数据集训练的视频生成模型和摄像机阵列选择,实现了空间和时间的一致性,提升了场景的真实感与灵活性。重要发现是其无训练架构能够高效生成可从任意轨迹查看的4D场景。
本文探讨视频生成模型与物理法则的关系,评估其模拟现实世界的能力。研究提出了一种框架,系统评估视频生成的物理现实性,发现当前模型在捕捉物理法则方面存在显著差距。这项研究对AGI和物理常识推理等领域具有重要意义。
本研究探讨视频生成模型是否能通过视觉数据发现遵循物理法则的世界模型。通过二维运动与碰撞模拟测试,发现模型在同分布下表现良好,但在不同分布场景下泛化能力不足,主要依赖实例泛化,表明模型无法揭示基本物理法则。
OpenAI 计划重组为营利性共益公司,不再由非营利性董事会控制。重组后,非营利组织将持有少数股权,公司估值可能达 1500 亿美元,并需取消投资者回报上限。近期高管离职引发关注,包括 CTO Mira Murati。OpenAI 还在改进视频生成模型 Sora。尽管面临挑战,此变动可能为 AI 行业带来新机遇。
奇虎360-AIGC团队和中山大学联合研发的FancyVideo是一种基于UNet架构的视频生成模型,可在消费级显卡上生成任意分辨率、宽高比、风格和运动幅度的视频。通过跨帧文本引导模块,FancyVideo改进了现有文本控制机制,提高了视频生成的质量、文本一致性、运动性和时序一致性。该模型在EvalCrafter Benchmark、UCF-101和MSR-VTT Benchmark上取得了领先的结果。FancyVideo还支持视频扩展和视频回溯操作。未来,FancyVideo团队计划发布更好的模型并上线网页版本供免费使用。
本文研究了GenAI-Bench上的图像和视频生成模型的性能,发现VQAScore评分优于人类评分,并可通过简单排名提高生成速度。在复合提示下,VQAScore的排名效果比其他评分方法提高2倍至3倍。
智谱AI开源了视频生成模型CogVideoX,该模型可生成高精度视频,已在国内获得好评。模型包含多个尺寸大小的模型,推理和微调所需的显存较小。智谱AI使用3D VAE视频压缩方法,结合了L2损失、LPIPS感知损失和3D判别器的GAN损失。智谱AI还提出了一种从图像字幕生成视频字幕的管道,并微调了视频字幕模型。智谱AI使用多个指标评估文本到视频生成的质量。未来,智谱AI将继续探索新型模型架构和更高效的视频压缩方法。
智谱AI开源了可商用的视频生成模型CogVideoX,GitHub上获得了3.7K个Star。模型支持人物特写和一镜到底等效果,且可在线体验。模型在单卡A100上生成视频仅需90秒。技术报告公开了模型的三大技术亮点:高效的三维变分自编码器结构、专家Transformer和负面标签数据处理。
这篇文章介绍了一种利用互联网上训练的视频生成模型实现机器人通用任务规划的方法。作者解决了基于视频的规划中的三个挑战,包括任务沟通、视频生成和将视觉规划转化为机器人动作。他们提出了一种语言手势调节生成视频的方法,并建议一种行为克隆设计,将视频规划与机器人动作结合。这项研究展示了最先进的效果,并证明了使用视频生成作为通用任务规划和执行的中间表示的合理性。
快手推出了名为可灵AI的视频生成模型,具有高效的训练基础设施和可扩展的基础架构。该模型能够生成长达2分钟、帧率达30fps的视频,采用3D时空联合注意力机制,能够建模复杂时空运动,生成较大幅度运动的视频内容。可灵AI还能模拟真实世界的物理特性,生成符合物理规律的视频。用户可以通过申请试用来体验该模型。
谷歌推出了视频生成模型Veo和文本到图像模型Imagen 3,具有高质量和先进的语义理解能力。与Donald Glover和Wyclef Jean等合作推出新作品。谷歌致力于负责任地开发和部署生成技术,并采取了安全措施。
本文研究了Fréchet Video Distance(FVD)作为评估视频生成模型的指标。通过解耦帧质量和运动质量,发现FVD对时域轴的敏感性较小。研究发现FVD偏向于个别帧的质量,这可以归因于从内容偏向数据集训练的受监督视频分类器提取的特征。使用最近的大规模自监督视频模型提取的特征的FVD对图像质量偏向较小。通过验证假设,重新审视了一些现实世界的例子。
本文介绍了视频生成模型Sora的结构和训练过程,包括采用的TECO模型、Diffusion Model和Spacetime Latent Patch等。Sora基于Transformer网络,旨在生成高质量、长时一致性的视频。训练过程包括两阶段,支持多种方式的视频生成。文章还讨论了Sora作为物理世界模拟器的可能性。
该论文介绍了Sora,一个大规模通用视频生成模型,以及一个名为Mora的新的多智能体框架。Mora通过多个视觉AI代理来复制Sora的视频生成能力,并希望通过合作的AI代理引导未来的视频生成方向。
OpenAI的首个视频生成模型sora引发了对文生图和文生视频的热情。清华大学团队推出了Latent Consistency Models (LCM),通过解决潜在空间中的概率流ODE,实现了快速的一步生成。LCM-LoRA是LCM的一种快速、无需训练的推理方法。Stable Diffusion XL Turbo是一种新一代图像合成模型,能够实时响应并生成图像。SDXL使用对抗扩散蒸馏技术,在1-4步内高效采样大规模基础图像扩散模型。
OpenAI的视频生成模型Sora能够生成高保真度、各异的视频,使用视觉补丁作为表示形式,并通过变压器架构进行操作。它能够根据文本提示生成视频,接受现有图像或视频作为输入,并具有一些有趣的模拟能力。扩大视频模型的规模是构建物理世界通用模拟器的有前景的路径。
OpenAI发布了名为Sora的视频生成模型,其作品质量超过竞争对手10倍。Sora在技术上实现了多项突破,包括物理空间、人类和动物的真实性以及主体和环境互动的真实性。与竞品不同,Sora的目标是研究一种模拟世界的通用方法。
该文章介绍了一种新的视频生成模型,使用混合的显式隐式三平面表示法和单一潜变量模型来捕捉依赖关系,并通过合成单个视频帧来生成整个视频序列。该方法计算复杂性降低了2倍,减少了视觉伪影的生成。通过集成基于光流的模块,进一步增强了模型的能力,能够合成高保真的视频片段。在三个不同数据集上验证了该方法的有效性和多功能性。
完成下面两步后,将自动完成登录并继续当前操作。