本研究分析了视觉-语言模型CLIP的零样本学习能力,提出了小样本微调和对抗微调方法,显著提高了模型在对抗攻击下的鲁棒性。同时,通过新颖的文本图像相互感知方法,增强了模型的分类稳健性,强调了提升零样本多模态模型鲁棒性的重要性。
本文研究了大型语言模型(LLMs)微调过程中可能出现的安全问题,特别是有害数据的影响。研究表明,微调可能降低模型的安全对齐性,现有安全措施无法有效应对这些风险。提出了通过对抗微调和新评测标准来增强模型安全性的改进措施,并强调了未来研究的重要方向。
本文介绍了RoCLIP方法,通过比较随机示例来断开损坏图像-字幕对的关联,从而增强CLIP模型的鲁棒性,降低数据污染和攻击成功率。研究评估了视觉-语言模型的脆弱性,并提出无监督对抗微调方案和对抗提示调优(APT),显著提高了模型的准确性和鲁棒性。同时,综述了各种攻击形式,强调了对大型视觉语言模型安全性研究的需求。
完成下面两步后,将自动完成登录并继续当前操作。