本研究分析了基础模型在对抗输入下的脆弱性,评估了扩散去噪平滑技术的效果。结果表明,高噪声扩散显著降低模型性能,而低噪声设置则保护不足。此外,提出了一种新攻击策略,揭示了鲁棒性与性能之间的权衡。
本研究提出对比激活工程(CAE)作为调优大语言模型(LLMs)行为的方法。研究表明,CAE在分布内效果显著,但在分布外表现较差,样本数量对性能提升有边际效应。此外,CA的使用可能增加模型混淆度并受到对抗输入的影响。
完成下面两步后,将自动完成登录并继续当前操作。