Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种动态令牌合并框架DYTO,旨在提高零-shot视频理解的效率和保真度。实验结果表明,DYTO在性能上优于传统微调和无训练方法,为该领域设定了新的标准。
🎯
关键要点
-
本研究提出了一种动态令牌合并框架DYTO,旨在提高零-shot视频理解的效率和保真度。
-
DYTO优化了令牌效率,同时保留了关键场景细节。
-
实验结果表明,DYTO在性能上优于传统微调和无训练方法。
-
DYTO为零-shot视频理解设定了新的最先进水平。
🏷️