Apple Machine Learning Research ·

STIV：可扩展的文本和图像条件视频生成

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

视频生成领域取得显著进展，但缺乏系统化开发指南。本文提出STIV，一种结合Diffusion Transformer架构的文本图像条件视频生成方法，支持文本到视频和图像到视频任务。STIV在多项任务中表现优异，为构建先进视频生成模型提供了透明方案，推动未来研究。

🎯

❓

STIV是一种结合Diffusion Transformer架构的文本图像条件视频生成方法，支持文本到视频和图像到视频任务。

STIV具有简单且可扩展的特点，能够支持多种视频生成任务，如视频预测和帧插值。

STIV通过帧替换将图像条件集成到Diffusion Transformer中，并通过联合图像-文本条件分类器自由引导实现文本条件。

STIV在T2I、T2V和TI2V任务上的全面消融研究显示其表现强劲，尤其在VBench T2V任务上取得83.1的成绩。

STIV可扩展到视频预测、帧插值、多视角生成和长视频生成等多种应用。

STIV为构建先进视频生成模型提供透明且可扩展的方案，推动未来研究和进步。

🏷️

LWiAI播客第242期 - ChatGPT图像2.0，Qwen 3.6 Max，Kimi-K2.6
本期播客讨论了最新的AI新闻，包括OpenAI发布的ChatGPT图像2.0模型，生成文本和截图的能力显著提升；阿里巴巴推出Qwen 3.6 Max，转为...
洪绘视频整理发布！快速整理视频文件名、移动文件夹工具
该应用主要用于个人视频整理，支持通过标签命名和快速修改文件名。用户可以将下载的视频集中到一个文件夹，方便管理和搜索。软件界面简洁，支持视频预览和文件操作，...
生数科技认领神秘登顶模型：AI视频公司拿出工业级Demo，跨本体跑通复杂长程任务
生数科技推出的MotuBrain是一款具身智能机器人通用大脑，具备世界模型的预测和行动能力，展现出卓越的物理理解和行动能力。MotuBrain通过统一建模...
Paolo Melchiorre: Posette 2026
An Event for Postgres (pronounced /Pō-zet/, and formerly called Citus Con) is...
NVIDIA Launches Ising Open Models for Quantum Computing
NVIDIA has announced a new family of open models called NVIDIA Ising, designe...
Vibhor Kumar：平稳平台测试：您的PostgreSQL策略是否适合企业？
Features create capability. Calm operations create trust. Most platfor...