本研究提出CLIP-Refine方法,旨在解决现代视觉语言模型中图像与文本特征的模态差距问题。通过在小型数据集上训练,实现特征空间对齐,提升零样本性能。实验结果表明,CLIP-Refine有效减轻了模态差距。
本研究提出了一种多阶段预训练的大型模型,解决X射线图像医学报告生成中的数据集不足和模型能力提升有限的问题。通过全面基准测试,模型在特征空间对齐和实验结果上表现出显著优势,为后续算法的训练与评估奠定基础。
完成下面两步后,将自动完成登录并继续当前操作。