小红花·文摘

该文章介绍了一种名为VideoPrism的通用视频编码器，通过在异构语料库上预训练，改进了遮挡自编码模型的预训练方法，使得VideoPrism主要关注视频模式，同时利用与视频相关的宝贵文本。在四个广泛的视频理解任务组上进行了广泛的测试，实现了最优性能。