小红花·文摘

本研究提出了一种动态令牌合并框架DYTO，旨在提高零-shot视频理解的效率和保真度。实验结果表明，DYTO在性能上优于传统微调和无训练方法，为该领域设定了新的标准。