视频大模型无损提速:删除多余token,训练时间减少30%,帧率越高效果越好

💡 原文中文,约2500字,阅读约需6分钟。
📝

内容提要

卡内基梅隆大学提出的Run-Length Tokenization(RLT)方法通过合并重复图像块,显著提高视频生成模型的训练和推理速度,训练时间减少30%,推理时间减少67%,且精度损失极小,特别适用于高帧率和长视频。

🎯

关键要点

  • 卡内基梅隆大学提出的Run-Length Tokenization(RLT)方法显著提高视频生成模型的训练和推理速度。
  • RLT方法通过合并重复图像块,训练时间减少30%,推理时间减少67%。
  • RLT特别适用于高帧率和长视频,30fps视频的训练速度可提升1倍,长视频训练token减少80%。
  • 与传统剪枝方法相比,RLT在精度损失极小的情况下实现更好的加速效果。
  • RLT的核心原理是将时间上重复的图像块合并为一个token,并使用位置编码表示token的长度。
  • 在训练阶段,RLT对ViT-B和ViT-L模型的训练时间分别减少到10.2小时和15.4小时,精度损失不超过0.1个百分点。
  • 在推理阶段,RLT能将计算量和延迟降低30-60%,且精度损失不超过0.5个百分点。
  • RLT在高帧率数据集中的效果更明显,30fps的视频加速可达100%。
➡️

继续阅读