小红花·文摘

本文介绍了一种测试时提示调整（TPT）方法，旨在优化CLIP模型的提示，从而提升模型的泛化能力和准确率。实验结果表明，TPT在自然情况下的零样本准确率提高了3.6%。此外，提出了Prompt-Adapter和POLE策略，结合视觉-语言模型和提示学习，增强了模型在少样本和弱监督任务中的表现，并通过上下文提示学习进一步提高了视觉识别任务的效果。

通过测试时提示调优适应开放类的视觉-语言模型

BriefGPT - AI 论文速递 ·

本研究介绍了Open-VCLIP++框架，通过修改CLIP捕捉视频时空关系，创建视频分类器，追求泛化性。利用权重插值的优势，训练Open-VCLIP++等同于零历史数据的持续学习。在动作识别数据集上评估，超过现有技术水平。在UCF、HMDB和Kinetics-600数据集上分别实现88.1%、58.7%和81.2%的零样本准确率，比最佳替代方法高出8.5%、8.2%和12.3%。在MSR-VTT视频文本检索数据集上达到竞争水平，使用更少的微调数据。

FROSTER：冷冻 CLIP 是开放词汇动作识别的强大教师

BriefGPT - AI 论文速递 ·

Open-VCLIP++是一个简单而有效的框架，用于捕捉视频中的时空关系并创建视频分类器。它可以进行持续学习，并生成细粒度的视频描述。在三个动作识别数据集上评估时，Open-VCLIP++的准确率超过了最先进技术。在UCF、HMDB和Kinetics-600数据集上，它的零样本准确率分别为88.1%、58.7%和81.2%。在MSR-VTT视频文本检索数据集上，它的检索性能达到了竞争水平，并且使用了更少的微调数据。

EZ-CLIP：高效零样本视频行为识别

BriefGPT - AI 论文速递 ·