本研究提出了一种动态令牌合并框架DYTO,旨在提高零-shot视频理解的效率和保真度。实验结果表明,DYTO在性能上优于传统微调和无训练方法,为该领域设定了新的标准。
完成下面两步后,将自动完成登录并继续当前操作。