研究人员提出了一种名为MAMMI的新型医学神经元概念标注方法,通过视觉和语言模型注释神经元概念,展示了其在医学图像分析中的有效性。
本文研究了视觉和语言模型领域的复杂关系,特别是在语言理解和图像与文本对齐方面。作者评估了现有的VLMs,并提出了改进两者能力和基准的策略性努力的必要性。
通过无监督预训练实现视觉和语言模型的学习,使用“mask-and-predict”方法预训练文本和图像数据,并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁。在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能,挑战了对于V&L预训练来说,对齐数据是必要的广泛看法,并显著减少了V&L模型的监督所需量。
完成下面两步后,将自动完成登录并继续当前操作。