机器之心 ·

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

💡 原文中文，约6200字，阅读约需15分钟。

📝

内容提要

AIxiv专栏促进学术交流，报道超过2000篇内容。苹果发布了8.7B参数的多模态视频生成模型STIV，结合文本和图像条件，提升生成质量。研究探讨了模型架构、训练策略及应用，解决了视频生成中的挑战，为未来应用奠定基础。

🎯

🔎

STIV模型基于PixArt-Alpha架构，采用冻结的变分自编码器（VAE）和可学习的DiT块，显著提升了视频生成的质量。通过时空注意力分解和条件嵌入等优化策略，模型在处理空间和时间特征时表现出色。这种创新架构为未来视频生成技术的发展提供了新的思路。

STIV模型采用渐进式训练策略，先训练文本到图像模型，再逐步过渡到视频生成。这种方法不仅加速了模型的适应能力，还提高了高分辨率和长时训练的效率。通过这种策略，STIV能够在多种生成任务中表现出色，展现了其广泛的应用潜力。

在视频生成中，字幕的质量直接影响生成效果。STIV引入了视频字幕生成模块，以提高训练数据的质量。然而，现有的字幕生成方法仍面临虚构现象和单帧描述不足的问题。未来需要进一步优化字幕生成技术，以确保生成视频的准确性和连贯性。

❓

STIV模型具有8.7B参数，支持文本和图像条件的视频生成，统一处理T2V和TI2V任务，显著提升生成质量。

STIV模型通过时空注意力分解、条件嵌入和渐进式训练策略等优化方法，提升了生成质量和训练效率。

STIV模型可扩展至视频预测、帧插值和长视频生成等任务，展示了广泛的应用潜力。

STIV模型采用渐进式训练策略，先训练T2I模型，再初始化T2V模型，快速适应高分辨率和长时训练。

STIV模型通过帧替换策略和图像条件随机丢弃，灵活地将图像条件融入视频生成过程。

STIV模型在VBench基准数据集上表现优异，超越了其他领先模型，显示出其强大的生成能力。

🏷️