💡
原文英文,约300词,阅读约需1分钟。
📝
内容提要
大型预训练视觉语言模型如CLIP在特定领域(如卫星图像)和细粒度分类(如汽车模型)中表现不佳。本文提出聚合与适应提示嵌入(AAPE),通过提炼自然语言提示的文本知识,改进提示学习,能够有效适应下游任务,并在少量标注数据下表现优异。AAPE在视觉语言理解和生成任务中具有竞争力,尤其适用于非典型和OOD示例,同时降低推理成本。
🎯
关键要点
- 大型预训练视觉语言模型如CLIP在特定领域和细粒度分类中表现不佳。
- 本文提出聚合与适应提示嵌入(AAPE),通过提炼自然语言提示的文本知识改进提示学习。
- AAPE能够有效适应下游任务,并在少量标注数据下表现优异。
- AAPE在视觉语言理解和生成任务中具有竞争力,尤其适用于非典型和OOD示例。
- AAPE学习降低了推理成本,并且在数据和LLM模型规模上具有更好的扩展性。
➡️