小红花·文摘

Google AI 推出VISTA：一款用于文本转视频生成的测试时自我改进智能体

实时互动网 ·

STIV：可扩展的文本和图像条件视频生成

Apple Machine Learning Research ·

本研究提出了T2VPhysBench基准，用于评估文本到视频生成模型遵循物理规律的能力。结果显示，现有模型在遵循核心物理定律方面表现普遍较差，揭示了当前技术的局限性，并为未来研究指明了方向。

T2VPhysBench: A First-Principles Benchmark for Physical Consistency in Text-to-Video Generation

BriefGPT - AI 论文速递 ·

该研究提出了一种名为LanDiff的混合框架，旨在克服文本到视频生成中语言模型和扩散模型的局限性。LanDiff通过粗到细的生成方法有效整合两者优势，在多个基准测试中表现优异，尤其在长视频生成方面超越了现有模型。

Wan 2.1 AI视频模型：Windows一键安装与经济实惠的私有云设置终极教程

DEV Community ·

本研究提出了实例感知结构化字幕框架InstanceCap，旨在解决文本到视频生成中的信息不足和运动描绘不准确的问题。通过引入实例级字幕，该方法显著提高了生成视频的保真度和一致性，实验结果表明其在字幕与视频的高保真度方面优于之前的模型。

InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Captions

BriefGPT - AI 论文速递 ·

人工智能生成医学视频，展示疾病随时间的进展

DEV Community ·

本研究提出了一种新框架MVideo，旨在解决文本到视频模型在生成复杂动作视频时的挑战。通过引入掩码序列作为运动条件输入，MVideo显著提高了视频生成的准确性和流畅度，增强了复杂动作的生成能力。

Motion Control for Enhanced Generation of Complex Action Videos

BriefGPT - AI 论文速递 ·

本研究提出了一种新框架DEMO，旨在改善文本到视频生成中的运动表现。通过将文本编码和条件分解为内容和运动组件，显著提高了运动合成效果，增强了模型对复杂动态的理解与生成能力。

Enhancing Motion in Text-to-Video Generation through Decomposed Encoding and Conditioning

BriefGPT - AI 论文速递 ·

黑森林实验室推出了开源图像生成AI模型Flux，参数规模为120亿。Flux有三种版本：FLUX.1 [pro]、FLUX.1 [dev]和FLUX.1 [schnell]。本文介绍了如何在MacBook上运行FLUX.1 [dev]，并解决内存和数据类型问题。FLUX.1 [schnell]速度更快，但质量稍逊。实验室计划推出文本到视频系统。

在 MacBook (M2) 上运行由 Stable Diffusion 原始开发者推出的 FLUX.1 图像生成 AI 模型 ([dev]/[schnell])

DEV Community ·

Adobe 预览即将推出的文本生成视频 AI 工具

The Verge ·

本研究提出了一种新的视频扩散模型，通过单眼深度估计控制视频的结构和内容保真度，实现高分辨率的文本到视频生成。用户可以独立指定对象运动和相机移动，提升视频质量和一致性。实验结果表明，该方法在视频深度估计和多目标合成方面表现优越，具有广泛的应用潜力。

一-shot学习与深度扩散结合于多对象视频

BriefGPT - AI 论文速递 ·

该研究探讨了多种扩散模型在高分辨率视频生成中的应用，包括文本到视频生成。通过引入时间自注意机制和联合微调，模型如LaVie和Show-1实现了高质量、时间一致的视频生成。此外，研究提出了VSTAR和StreamingT2V方法，提升了长视频生成的动态性和清晰度，展示了在复杂场景下的优越性能。

xGen-VideoSyn-1：高保真文本到视频合成与压缩表示

BriefGPT - AI 论文速递 ·

ControlVideo是一种无需训练的文本到视频生成模型，能够快速生成高质量视频。Video-ControlNet通过控制信号生成视频，DragNUWA提供精细控制，MoVideo考虑运动感知，TrackDiffusion改善多目标跟踪，Motion-I2V和Direct-a-Video允许用户控制对象和相机运动。这些新方法整合语义和动作线索，提升视频质量和连贯性。

MotionClone 是一种无需训练的框架，通过时间注意力机制克隆运动以控制文本到视频生成，提升生成模型的空间关系和随机应变能力。研究探讨了视频与图片的信息性差异，提出了基于文本描述的运动检索任务，利用姿态估计和 Motion Transformer 模型进行内容检索，并提出了 KV Inversion 方法解决动作编辑问题，引入 Visual-Dynamic Injection 方法增强视频时刻理解。

任意再现：利用运动 - 文本反演进行语义视频运动迁移

BriefGPT - AI 论文速递 ·

本文介绍了一种基于低秩适应的时空注意力层的视频生成模型，该模型能够从单个参考视频中学习运动信息，适应新主题和场景。通过引入运动个性化和伪光流技术，提升了视频编辑能力，并提出了TI2V任务和MAGE生成器，验证了其在文本到视频生成中的有效性。

Still-Moving: 无需定制视频数据的定制视频生成

BriefGPT - AI 论文速递 ·

本文评估了文本到视频（T2V）生成模型的质量度量，提出了新的评估指标T2VScore，强调自然性和语义匹配的重要性。同时引入了TVGE数据集，以改进T2V生成的评估方法，并提出FETV基准用于细粒度评估。分析现有自动评估指标发现其与人工评估相关性较差，因此提出了新的自动评估指标以提高相关性。

重新思考文本到视频模型的人工评估协议：提升可靠性、可复现性和实用性

BriefGPT - AI 论文速递 ·

Modular：前沿编码代理如何在MAX上构建视频扩散管道

AI Gateway的视频生成

文本到视频模型的训练数据预处理

Google AI 推出VISTA：一款用于文本转视频生成的测试时自我改进智能体

STIV：可扩展的文本和图像条件视频生成

T2VPhysBench: A First-Principles Benchmark for Physical Consistency in Text-to-Video Generation

两者的最佳结合：整合语言模型与扩散模型以生成视频

Wan 2.1 AI视频模型：Windows一键安装与经济实惠的私有云设置终极教程

InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Captions

人工智能生成医学视频，展示疾病随时间的进展

Motion Control for Enhanced Generation of Complex Action Videos

Enhancing Motion in Text-to-Video Generation through Decomposed Encoding and Conditioning

在 MacBook (M2) 上运行由 Stable Diffusion 原始开发者推出的 FLUX.1 图像生成 AI 模型 ([dev]/[schnell])

Adobe 预览即将推出的文本生成视频 AI 工具

一-shot学习与深度扩散结合于多对象视频

xGen-VideoSyn-1：高保真文本到视频合成与压缩表示

TrackGo：一种灵活高效的可控视频生成方法

任意再现：利用运动 - 文本反演进行语义视频运动迁移

Still-Moving: 无需定制视频数据的定制视频生成

重新思考文本到视频模型的人工评估协议：提升可靠性、可复现性和实用性