LoTLIP:改善长文本理解的语言-图像预训练
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了长文本标签重标定和角落标记方法,提升了语言-图像预训练模型对长文本的理解能力,并提高了长文本图像检索的性能,同时不影响短文本理解。
🎯
关键要点
- 本研究提出了长文本标签重标定和角落标记方法。
- 研究旨在提升语言-图像预训练模型对长文本的理解能力。
- 现有模型在理解长文本方面存在不足,主要因训练图像与短文本配对。
- 引入新方法后,模型在保持短文本理解能力的同时,显著提高了长文本理解能力。
- 研究实现了长文本图像检索任务的重要性能提升。
➡️