本文提出了一种新框架用于文本到图像的检索,利用预训练的CLIP模型和交叉模态损失,显著提升了检索效果。同时,介绍了一种基于生成式模型的多模态知识检索方法,结合大型语言模型和视觉特征,进一步提高了检索性能。
完成下面两步后,将自动完成登录并继续当前操作。