本文探讨了一种多层级模型,将图像转化为文字解释,提出了基于对比式语言图像预训练的方法,解决了从未剪辑视频中基于文本的活动检索问题。研究表明,该模型在多个基准测试中表现优异,具备强大的零样本和少样本学习能力,推动了计算机视觉与自然语言处理的融合。
完成下面两步后,将自动完成登录并继续当前操作。