小红花·文摘

做智能体时，别把 LLM 当大脑：它是计算机里的 ALU，而你需要构建的是操作系统

dotNET跨平台 ·

本文从理论的角度分析了对抗攻击周围的逻辑差异，并提出了一种新的原则，即 Adversarial Logit Update (ALU)，用于推断对抗样本的标签。基于ALU，引入了一种新的分类范式，利用预净化和后净化的逻辑差异来提高模型的对抗鲁棒性。实验证明，该解决方案在CIFAR-10、CIFAR-100和tiny-ImageNet数据集上具有卓越的鲁棒性能。

通过对抗性输出日志更新推进对抗鲁棒性

BriefGPT - AI 论文速递 ·