LoTLIP: Improving Language-Image Pre-training for Long Text Understanding
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了LoTLIP模型,旨在改善语言-图像预训练在长文本理解中的不足。通过长文本标签重标定和角落标记的引入,模型在保持短文本理解能力的同时,显著提升了长文本的理解能力和图像检索性能。
🎯
关键要点
- LoTLIP模型旨在改善语言-图像预训练在长文本理解中的不足。
- 现有模型主要与短文本配对,导致长文本理解能力不足。
- 通过长文本标签重标定和角落标记的引入,LoTLIP模型显著提升了长文本的理解能力。
- 模型在保持短文本理解能力的同时,提升了长文本图像检索性能。
➡️