该文章介绍了一种名为VideoPrism的通用视频编码器,通过在异构语料库上预训练,改进了遮挡自编码模型的预训练方法,使得VideoPrism主要关注视频模式,同时利用与视频相关的宝贵文本。在四个广泛的视频理解任务组上进行了广泛的测试,实现了最优性能。
完成下面两步后,将自动完成登录并继续当前操作。