小红花·文摘

本文提出了一种新框架用于文本到图像的检索，利用预训练的CLIP模型和交叉模态损失，显著提升了检索效果。同时，介绍了一种基于生成式模型的多模态知识检索方法，结合大型语言模型和视觉特征，进一步提高了检索性能。