小红花·文摘

本文提出了一种知识增强的对比视觉语言预训练框架（KoBo），将临床知识融入视觉语言学习中，以提升分类和分割任务的性能。同时，研究提出了COSMO方法，解决虚假负样本问题，强调其在视觉语言预训练中的重要性。此外，比较了对比预训练与图像字幕策略，发现后者同样有效。整体上，研究展示了多模态学习在视觉与语言任务中的优势与挑战。