用于防御预训练医学视觉语言模型中对抗噪声的轻量级微调方法

通过研究使用多模态对抗攻击的噪声上游数据集上训练的 Vision-Language 模型在下游医学任务中的表现，揭示中等噪声水平增强了模型的鲁棒性和可传递性，但噪声水平增加会对下游任务性能产生负面影响。为了缓解这个问题，提出了修正对抗噪声（RAN）框架，它能有效防御对抗攻击并矫正在精调过程中上游噪声的影响。

大型语言模型（LLMs）在医疗应用中的整合为医学诊断、治疗建议和患者护理方面的进步提供了有希望的前景。然而，LLMs易受敌对攻击威胁，可能导致敏感医疗环境中的不良结果。研究发现，LLMs在多个任务中容易受到操纵，需要更多的敌对数据以实施有效的攻击。此外，整合敌对数据会导致模型权重的明显变化，需要健全的安全措施和防御机制来保护LLMs的安全有效部署。

医学诊断医疗应用大型语言模型安全措施敌对攻击语言模型