视觉语言基础模型中的后预训练用于模态对齐
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
本研究提出CLIP-Refine方法,旨在解决现代视觉语言模型中图像与文本特征的模态差距问题。通过在小型数据集上训练,实现特征空间对齐,提升零样本性能。实验结果表明,CLIP-Refine有效减轻了模态差距。
🎯
关键要点
- 本研究提出CLIP-Refine方法,旨在解决现代视觉语言模型中图像与文本特征的模态差距问题。
- CLIP-Refine通过在小型数据集上训练,实现特征空间对齐,提升零样本性能。
- 实验结果表明,CLIP-Refine有效减轻了模态差距,改善了下游任务的表现。
🏷️
标签
➡️