小红花·文摘

本研究提出了T2VTextBench，这是首个评估视频生成模型中文本准确性和时间一致性的人类评估基准。测试结果显示，大多数模型在生成清晰一致的文本方面面临显著挑战，为未来改善视频合成中的文本处理提供了研究方向。

T2VTextBench：一种用于视频生成模型文本控制的人类评估基准

BriefGPT - AI 论文速递 ·

本研究提出了一种新型水印技术LVMark，旨在解决现有水印技术在视频生成模型中处理时序信息的不足。LVMark能够在保持视频质量的同时嵌入水印信息，具有保护视频生成模型所有权的重要价值。

LVMark: A Robust Watermark for Latent Video Diffusion Models

BriefGPT - AI 论文速递 ·

本研究提出了PaintScene4D框架，旨在生成真实感动态4D场景。该框架通过多样数据集训练的视频生成模型和摄像机阵列选择，实现了空间和时间的一致性，提升了场景的真实感与灵活性。重要发现是其无训练架构能够高效生成可从任意轨迹查看的4D场景。

缩小差距：评估视频生成的物理现实性

DEV Community ·

本研究探讨视频生成模型是否能通过视觉数据发现遵循物理法则的世界模型。通过二维运动与碰撞模拟测试，发现模型在同分布下表现良好，但在不同分布场景下泛化能力不足，主要依赖实例泛化，表明模型无法揭示基本物理法则。

OpenAI 不 Open 了？公司重组、高层地震，但也没坏得那么糟糕

爱范儿 ·

RTX3090可跑，360AI团队开源最新视频模型FancyVideo，红衣大叔都说好

机器之心 ·

本文研究了GenAI-Bench上的图像和视频生成模型的性能，发现VQAScore评分优于人类评分，并可通过简单排名提高生成速度。在复合提示下，VQAScore的排名效果比其他评分方法提高2倍至3倍。

K-Sort Arena：基于K次人类偏好的生成模型高效可靠基准评估

BriefGPT - AI 论文速递 ·

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

机器之心 ·

智谱AI开源了可商用的视频生成模型CogVideoX，GitHub上获得了3.7K个Star。模型支持人物特写和一镜到底等效果，且可在线体验。模型在单卡A100上生成视频仅需90秒。技术报告公开了模型的三大技术亮点：高效的三维变分自编码器结构、专家Transformer和负面标签数据处理。

智谱AI版Sora开源！首个可商用，在线可玩，5小时GitHub狂揽3.7K星

量子位 ·

这篇文章介绍了一种利用互联网上训练的视频生成模型实现机器人通用任务规划的方法。作者解决了基于视频的规划中的三个挑战，包括任务沟通、视频生成和将视觉规划转化为机器人动作。他们提出了一种语言手势调节生成视频的方法，并建议一种行为克隆设计，将视频规划与机器人动作结合。这项研究展示了最先进的效果，并证明了使用视频生成作为通用任务规划和执行的中间表示的合理性。

快手可灵文生视频大模型

迷途小书童 ·

谷歌推出了视频生成模型Veo和文本到图像模型Imagen 3，具有高质量和先进的语义理解能力。与Donald Glover和Wyclef Jean等合作推出新作品。谷歌致力于负责任地开发和部署生成技术，并采取了安全措施。

为创作者打造的新一代生成媒体模型和工具

The Keyword ·

本文研究了Fréchet Video Distance（FVD）作为评估视频生成模型的指标。通过解耦帧质量和运动质量，发现FVD对时域轴的敏感性较小。研究发现FVD偏向于个别帧的质量，这可以归因于从内容偏向数据集训练的受监督视频分类器提取的特征。使用最近的大规模自监督视频模型提取的特征的FVD对图像质量偏向较小。通过验证假设，重新审视了一些现实世界的例子。

技术神秘化的去魅：Sora关键技术逆向工程图解

知乎每日精选 ·

该论文介绍了Sora，一个大规模通用视频生成模型，以及一个名为Mora的新的多智能体框架。Mora通过多个视觉AI代理来复制Sora的视频生成能力，并希望通过合作的AI代理引导未来的视频生成方向。

OpenAI的首个视频生成模型sora引发了对文生图和文生视频的热情。清华大学团队推出了Latent Consistency Models (LCM)，通过解决潜在空间中的概率流ODE，实现了快速的一步生成。LCM-LoRA是LCM的一种快速、无需训练的推理方法。Stable Diffusion XL Turbo是一种新一代图像合成模型，能够实时响应并生成图像。SDXL使用对抗扩散蒸馏技术，在1-4步内高效采样大规模基础图像扩散模型。

文生图的最新进展：从一致性模型CMs、LCM、SDXL到Stable Diffusion3、SDXL-Lightning

结构之法算法之道 ·

Sora技术报告视频生成模型作为世界模拟器笔记

plus studio ·

Sora - 创造物理世界模拟器的希望之路

橘子汽水铺 ·

该文章介绍了一种新的视频生成模型，使用混合的显式隐式三平面表示法和单一潜变量模型来捕捉依赖关系，并通过合成单个视频帧来生成整个视频序列。该方法计算复杂性降低了2倍，减少了视觉伪影的生成。通过集成基于光流的模块，进一步增强了模型的能力，能够合成高保真的视频片段。在三个不同数据集上验证了该方法的有效性和多功能性。

RAVEN：以高效的三层平面网络重新思考对抗性视频生成

BriefGPT - AI 论文速递 ·

T2VTextBench：一种用于视频生成模型文本控制的人类评估基准

LVMark: A Robust Watermark for Latent Video Diffusion Models

PaintScene4D：基于文本提示的一致性4D场景生成

缩小差距：评估视频生成的物理现实性

从物理法则视角看视频生成与世界模型的距离

OpenAI 不 Open 了？公司重组、高层地震，但也没坏得那么糟糕

RTX3090可跑，360AI团队开源最新视频模型FancyVideo，红衣大叔都说好

K-Sort Arena：基于K次人类偏好的生成模型高效可靠基准评估

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

智谱AI版Sora开源！首个可商用，在线可玩，5小时GitHub狂揽3.7K星

这个与那个：基于语言和手势的机器人规划视频生成

快手可灵文生视频大模型

为创作者打造的新一代生成媒体模型和工具

关于 Fréchet 视频距离中的内容偏差

技术神秘化的去魅：Sora关键技术逆向工程图解

Mora: 通过多代理框架实现通用视频生成

文生图的最新进展：从一致性模型CMs、LCM、SDXL到Stable Diffusion3、SDXL-Lightning

Sora技术报告视频生成模型作为世界模拟器笔记

Sora - 创造物理世界模拟器的希望之路

RAVEN：以高效的三层平面网络重新思考对抗性视频生成

T2VTextBench：一种用于视频生成模型文本控制的人类评估基准

LVMark: A Robust Watermark for Latent Video Diffusion Models

PaintScene4D：基于文本提示的一致性4D场景生成

缩小差距：评估视频生成的物理现实性

从物理法则视角看视频生成与世界模型的距离

OpenAI 不 Open 了？公司重组、高层地震，但也没坏得那么糟糕

RTX3090可跑，360AI团队开源最新视频模型FancyVideo，红衣大叔都说好

K-Sort Arena：基于K次人类偏好的生成模型高效可靠基准评估

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

智谱AI版Sora开源！首个可商用，在线可玩，5小时GitHub狂揽3.7K星

这个与那个：基于语言和手势的机器人规划视频生成

快手可灵文生视频大模型

为创作者打造的新一代生成媒体模型和工具

关于 Fréchet 视频距离中的内容偏差

技术神秘化的去魅：Sora关键技术逆向工程图解

Mora: 通过多代理框架实现通用视频生成

文生图的最新进展：从一致性模型CMs、LCM、SDXL到Stable Diffusion3、SDXL-Lightning

Sora技术报告 视频生成模型作为世界模拟器 笔记

Sora - 创造物理世界模拟器的希望之路

RAVEN：以高效的三层平面网络重新思考对抗性视频生成

Sora技术报告视频生成模型作为世界模拟器笔记