小红花·文摘

本文探讨了大规模语言模型(LLMs)中归纳行为的演变，发现LLMs对微小扰动的反应既稳健又普遍，揭示了模型中间层归纳行为的逐步涌现。

BriefGPT - AI 论文速递 ·

本文介绍了DPatch，一种针对现代计算机视觉系统的黑盒攻击方法，通过微小扰动影响目标检测性能。研究发现，即使在物体边界框外添加扰动，也会显著降低检测准确性。研究者通过生成对抗补丁和优化攻击策略，成功误导了YOLOv2等检测器，并提出了有效的防御机制，以增强模型的韧性和可靠性。

BriefGPT - AI 论文速递 ·