视频生成的测试时Scaling时刻！清华开源Video-T1，无需重新训练让性能飙升

机器之心 ·

视频生成的测试时Scaling时刻！清华开源Video-T1，无需重新训练让性能飙升

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

清华大学与腾讯的研究团队首次探索视频生成的Test-Time Scaling，提出了高效的Tree-of-Frames方法，显著提升了视频生成的质量与效率，并降低了计算需求。该方法通过自适应扩展和修剪视频分支，实现了计算成本与生成质量的动态平衡。

🎯

关键要点

清华大学与腾讯的研究团队首次探索视频生成的Test-Time Scaling。
提出了高效的Tree-of-Frames方法，显著提升视频生成的质量与效率。
视频生成的性能主要通过增大基础模型的参数量和预训练数据实现提升。
Video-T1是首次将Test-Time Scaling引入视频生成领域，突破了传统方式的局限性。
研究团队通过增加推理阶段计算显著提升视频生成质量，在VBench上实现了最高5.86%的总分提升。
随机线性搜索被建模为从高斯噪声空间到目标视频分布的轨迹搜索问题。
Tree-of-Frames方法通过自适应扩展和修剪视频分支，实现计算成本与生成质量的动态平衡。
Tree-of-Frames方法显著提高搜索效率，降低视频模型的推理计算需求。
研究团队通过比较不同Test-Time Scaling方法发现Tree-of-Frames在相同NFE情况下显著提高视频表现。
首帧对视频整体对齐影响较大，研究团队利用单帧生成思维链和层次化提示词增强帧的生成和提示词对齐。
实验结果表明，无论是基于Diffusion的模型还是Autoregressive范式的模型，都能通过Test-Time Scaling实现生成视频性能的提升。
使用不同的VLM作为Verifier对视频生成质量的提升效果有所不同，Multiple Verifier效果更佳。
研究团队提供了Tree-of-Frames层次化提示词和过程中验证的可视化结果。

❓

延伸问答

什么是视频生成的Test-Time Scaling？

视频生成的Test-Time Scaling是一种通过增加推理阶段计算来提升视频生成质量的方法，首次由清华大学与腾讯的研究团队提出。

Tree-of-Frames方法如何提高视频生成的效率？

Tree-of-Frames方法通过自适应扩展和修剪视频分支，实现计算成本与生成质量的动态平衡，从而显著提高搜索效率。

Video-T1项目的主要贡献是什么？

Video-T1项目首次将Test-Time Scaling引入视频生成领域，显著提升了视频生成的质量与效率，并降低了计算需求。

在VBench上，研究团队的实验结果如何？

在VBench上，研究团队通过增加推理阶段计算实现了最高5.86%的总分提升，显示出模型能力随着样本数目增加而增长。

使用不同的VLM作为Verifier对视频生成质量的影响是什么？

使用不同的VLM作为Verifier对视频生成质量的提升效果有所不同，Multiple Verifier的效果更佳。

如何通过层次化提示词增强视频生成的质量？

通过单帧生成思维链和层次化提示词，研究团队增强了帧的生成和提示词对齐，从而提高视频生成的整体质量。

🏷️

继续阅读

AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...
阿里开源Open Code Review：一款AI代码评审命令行工具
阿里巴巴开源的Open Code Review（OCR）是一款AI代码审查工具，能够自动审查Git提交和代码变更。它通过分析代码库，识别潜在的空指针、线程...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
史上最强游戏掌机来了！性能堪比 PS5，但……
今年掌机市场因元器件成本上涨而涨价，但英特尔等公司推出的新芯片提升了掌机性能和能效。微星和宏碁的新款掌机搭载英特尔 Arc G3 处理器，表现出色，续航能...
再谈响度战争：为什么你看的视频越来越「吵」了？
文章探讨了“响度战争”现象，即视频和音频内容为了吸引观众注意力而不断提高响度。这种趋势导致动态范围减小，影响听觉体验。虽然更响的声音能短期提升表现力，但可...
[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...