小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了AmpleGCG-Plus增强版，有效解决了大型语言模型在对抗性后缀下的脆弱性，显著提高了攻击成功率，尤其在破解GPT-4o系列模型方面表现突出。

AmpleGCG-Plus: A Powerful Generative Model for Cracking Large Language Models with Higher Success Rates and Fewer Attempts through Adversarial Suffixes

BriefGPT - AI 论文速递 ·

本文提出了一种对抗性后缀嵌入翻译框架（ASETF），能够将不可读的对抗性后缀转化为流畅文本，从而提升攻击成功率。同时，研究开发了多种安全评估和防御框架，如Adversarial Prompt Shield（APS）和ASSERT，旨在增强大型语言模型的安全性和鲁棒性，确保其在复杂环境中的可靠性。

SEAS: 自我演化的对抗性安全优化大型语言模型

BriefGPT - AI 论文速递 ·