小红花·文摘 - 小红花技术领袖俱乐部

本研究分析了基础模型在对抗输入下的脆弱性，评估了扩散去噪平滑技术的效果。结果表明，高噪声扩散显著降低模型性能，而低噪声设置则保护不足。此外，提出了一种新攻击策略，揭示了鲁棒性与性能之间的权衡。

Beyond Classification: Evaluating the Effectiveness of Diffusion Denoising Smoothing in the Security-Utility Trade-off

BriefGPT - AI 论文速递 ·

本研究提出对比激活工程（CAE）作为调优大语言模型（LLMs）行为的方法。研究表明，CAE在分布内效果显著，但在分布外表现较差，样本数量对性能提升有边际效应。此外，CA的使用可能增加模型混淆度并受到对抗输入的影响。

Patterns and Mechanisms of Contrastive Activation Engineering

BriefGPT - AI 论文速递 ·