该研究提出了一种渐进式视觉令牌压缩(PVC)方法,旨在统一图像和视频处理中的令牌压缩。通过将图像视为“静态”视频,逐步编码和适应性压缩令牌,实验表明该模型在视频理解基准上表现优异,同时在图像任务中保持良好性能。
完成下面两步后,将自动完成登录并继续当前操作。