冻结骨干网络:一种参数高效的对比学习方法用于稳健的医疗视觉 - 语言预训练
原文中文,约500字,阅读约需2分钟。发表于: 。现代医疗常常使用放射影像和文字报告进行诊断,鼓励使用大型预训练模型进行视觉 - 语言自监督学习 (VL-SSL) 以学习多功能的医学视觉表示。然而,大部分现有的 VL-SSL 框架都是端到端训练的,计算成本高,并且可能丢失预训练编码器中嵌入的重要先验信息。为了解决这两个问题,我们引入了适用于任意骨干网络的 Adaptor 框架,通过保持预训练的图像和文本编码器的冻结状态,并采用轻量级的...
现代医疗使用放射影像和文字报告进行诊断,鼓励使用大型预训练模型进行视觉-语言自监督学习(VL-SSL)。为了解决计算成本高和丢失先验信息的问题,引入了适用于任意骨干网络的Adaptor框架,通过保持预训练的编码器的冻结状态,并采用轻量级的Adaptor模块进行跨模态学习。实验结果表明,该框架在保持可训练参数减少90%以上的同时,具有竞争性的性能。