视频大模型无损提速:删除多余token,训练时间减少30%,帧率越高效果越好
💡
原文中文,约2500字,阅读约需6分钟。
📝
内容提要
卡内基梅隆大学提出的Run-Length Tokenization(RLT)方法通过合并重复图像块,显著提高视频生成模型的训练和推理速度,训练时间减少30%,推理时间减少67%,且精度损失极小,特别适用于高帧率和长视频。
🎯
关键要点
- 卡内基梅隆大学提出的Run-Length Tokenization(RLT)方法显著提高视频生成模型的训练和推理速度。
- RLT方法通过合并重复图像块,训练时间减少30%,推理时间减少67%。
- RLT特别适用于高帧率和长视频,30fps视频的训练速度可提升1倍,长视频训练token减少80%。
- 与传统剪枝方法相比,RLT在精度损失极小的情况下实现更好的加速效果。
- RLT的核心原理是将时间上重复的图像块合并为一个token,并使用位置编码表示token的长度。
- 在训练阶段,RLT对ViT-B和ViT-L模型的训练时间分别减少到10.2小时和15.4小时,精度损失不超过0.1个百分点。
- 在推理阶段,RLT能将计算量和延迟降低30-60%,且精度损失不超过0.5个百分点。
- RLT在高帧率数据集中的效果更明显,30fps的视频加速可达100%。
➡️