小红花·文摘

本研究提出了一种大型合成数据集和动态视觉标记压缩架构，旨在解决视频分析中的数据集不足和处理效率低的问题。该方法在多个视频任务上取得了先进的结果，并为多图像理解建立了新基准。