MM-Skin:通过来自教科书的图像-文本数据集增强皮肤病学视觉-语言模型
📝
内容提要
本研究针对现有皮肤病学多模态数据集中专业文本描述不足的问题,提出了MM-Skin,这是首个包含临床、皮肤镜和病理等三种成像模式的大规模多模态皮肤病学数据集,包含近10,000对高质量图像-文本对。此外,我们开发了特定于皮肤病学的视觉-语言模型SkinVL,并在多个任务上展现出卓越性能。这项研究有助于推动临床皮肤病学视觉-语言模型助手的发展。
➡️