小红花·文摘

本文探讨了一种多层级模型，将图像转化为文字解释，提出了基于对比式语言图像预训练的方法，解决了从未剪辑视频中基于文本的活动检索问题。研究表明，该模型在多个基准测试中表现优异，具备强大的零样本和少样本学习能力，推动了计算机视觉与自然语言处理的融合。