MI-VisionShot:用于组织病理图像滑动级分类的视觉语言模型少量学习适应
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了在组织病理学中,基于视觉语言模型(VLM)进行滑动级别分类时,零样本转移高变异性的问题。提出的MI-VisionShot方法结合了原型学习,利用VLM进行训练前适应,实现了在少量样本学习场景下的滑动级标签预测,实验结果表明其表现超过传统零样本转移,变异性更低,具有潜在的临床应用价值。
该研究提出了一种名为CPLIP的无监督技术,用于增强组织病理学中的图像和文本对齐。CPLIP通过构建病理学词典和使用语言模型生成文本描述,利用多对多对比学习微调模型,实现复杂概念的模态对齐。在多个任务中,CPLIP在零样本学习中表现出色,超越现有方法,并提高了可解释性和鲁棒性。代码已发布在GitHub。