小红花·文摘

本研究分析了视觉-语言模型CLIP的零样本学习能力，提出了小样本微调和对抗微调方法，显著提高了模型在对抗攻击下的鲁棒性。同时，通过新颖的文本图像相互感知方法，增强了模型的分类稳健性，强调了提升零样本多模态模型鲁棒性的重要性。

文本引导注意力是实现视觉语言模型零样本鲁棒性的全部需要

BriefGPT - AI 论文速递 ·

本文研究了大型语言模型（LLMs）微调过程中可能出现的安全问题，特别是有害数据的影响。研究表明，微调可能降低模型的安全对齐性，现有安全措施无法有效应对这些风险。提出了通过对抗微调和新评测标准来增强模型安全性的改进措施，并强调了未来研究的重要方向。

微调对语言模型毒性的影响

BriefGPT - AI 论文速递 ·

本文介绍了RoCLIP方法，通过比较随机示例来断开损坏图像-字幕对的关联，从而增强CLIP模型的鲁棒性，降低数据污染和攻击成功率。研究评估了视觉-语言模型的脆弱性，并提出无监督对抗微调方案和对抗提示调优（APT），显著提高了模型的准确性和鲁棒性。同时，综述了各种攻击形式，强调了对大型视觉语言模型安全性研究的需求。

通过强健编码器增强视觉-语言模型的安全性以抵御越狱和对抗攻击

BriefGPT - AI 论文速递 ·