小红花·文摘

AI Gateway的视频生成

Vercel News ·

STIV：可扩展的文本和图像条件视频生成

Apple Machine Learning Research ·

华人团队发布的Pusa V1.0模型，利用3860段视频和500美元成本，实现了图像到视频生成的最新技术，采用向量时间步适应机制，支持多种视频生成任务，并已开源。

500美元刷新SOTA！训练成本砍到1/200，华人团队重构视频生成范式

量子位 ·

Cavia：可控相机的多视角视频扩散与视图集成注意力

Apple Machine Learning Research ·

Wan 2.1 AI视频模型：Windows一键安装与经济实惠的私有云设置终极教程

DEV Community ·

腾讯的Fast-Hunyuan视频模型开源后，速度提升8倍，生成5秒视频仅需1分钟，步骤减少至6步，画面更逼真。该模型由加州大学团队开发，支持多种微调方式，未来将推出图像到视频生成功能。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

量子位 ·

本研究提出了SG-I2V框架，解决了生成视频中调整特定元素（如物体运动或摄像机移动）的复杂问题。该框架利用预训练的图像到视频扩散模型，实现零样本控制，结果在视觉质量和运动保真度上优于无监督基线，并与有监督模型竞争。

SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation

BriefGPT - AI 论文速递 ·

Adobe 预览即将推出的文本生成视频 AI 工具

The Verge ·

本文研究了跨模态参数高效的图像到视频传递学习，提出了Spatio-Temporal Adapter，能够以较低成本实现动态视频内容的推理能力。XMAdapter通过视觉-语言双模态信息提升模型性能，实验结果表明其在准确性和效率上优于以往方法。此外，研究探讨了适配器在屏幕截图字幕任务中的应用，提出UniAdapter以实现跨模态自适应，显著减少可调参数并提升性能。

FE-Adapter：将基于图像的情感分类器适应于视频

BriefGPT - AI 论文速递 ·

本文研究了图像到视频的传递学习，提出了Spatio-Temporal Adapter，能够以较低成本实现动态视频内容的时空推理。该适配器在少样本动作识别中表现优越，采用双通道架构和时空注意力模块，显著提升了模型性能，适用于复杂场景。

任务适配器：针对少样本动作识别的图像模型任务专用适应

BriefGPT - AI 论文速递 ·

本文讨论了开源视频生成模型，包括文本到视频和图像到视频的扩散模型。这些模型能够生成高质量视频，并通过个性化运动和定制生成方法解决视频编辑中的偏见问题。研究表明，扩大训练集和引入新方法可以显著提升视频生成性能，推动视频编辑技术的发展。

搜索先验使文本到视频的合成更好

BriefGPT - AI 论文速递 ·