本文介绍了一种测试时提示调整(TPT)方法,旨在优化CLIP模型的提示,从而提升模型的泛化能力和准确率。实验结果表明,TPT在自然情况下的零样本准确率提高了3.6%。此外,提出了Prompt-Adapter和POLE策略,结合视觉-语言模型和提示学习,增强了模型在少样本和弱监督任务中的表现,并通过上下文提示学习进一步提高了视觉识别任务的效果。
本研究介绍了Open-VCLIP++框架,通过修改CLIP捕捉视频时空关系,创建视频分类器,追求泛化性。利用权重插值的优势,训练Open-VCLIP++等同于零历史数据的持续学习。在动作识别数据集上评估,超过现有技术水平。在UCF、HMDB和Kinetics-600数据集上分别实现88.1%、58.7%和81.2%的零样本准确率,比最佳替代方法高出8.5%、8.2%和12.3%。在MSR-VTT视频文本检索数据集上达到竞争水平,使用更少的微调数据。
Open-VCLIP++是一个简单而有效的框架,用于捕捉视频中的时空关系并创建视频分类器。它可以进行持续学习,并生成细粒度的视频描述。在三个动作识别数据集上评估时,Open-VCLIP++的准确率超过了最先进技术。在UCF、HMDB和Kinetics-600数据集上,它的零样本准确率分别为88.1%、58.7%和81.2%。在MSR-VTT视频文本检索数据集上,它的检索性能达到了竞争水平,并且使用了更少的微调数据。
完成下面两步后,将自动完成登录并继续当前操作。