本文介绍了PersonaTeaming方法,通过引入角色提升AI模型在自动化红队测试中的风险识别能力。该方法利用“红队专家”或“普通用户”角色生成对抗性提示,实验结果显示攻击成功率提高了144.1%。研究分析了不同角色类型和变异方法的优缺点,为未来自动化与人工红队测试的结合提供了新思路。
本研究提出FLEX基准,以评估大型语言模型在面对可能引发偏见的对抗性提示时的公平性和鲁棒性。研究表明,现有评估标准可能低估模型的风险,强调需要更严格的评估以确保安全与公平。
本研究提出了CurvaLID防御框架,旨在解决大型语言模型在安全部署中面临的对抗性提示挑战。该框架通过几何特性高效检测对抗性提示,揭示其与良性提示的区别,展现出优越的检测和拒绝能力。
本研究提出了一种递归框架,以增强大型语言模型(LLMs)对越狱和对抗性提示的抵抗力,从而有效检测和防范恶意输入,为AI安全提供基础。
本研究提出了一种新方法,将杂乱的对抗性提示转化为连贯文本,解决现有越狱攻击方法的局限性。此方法揭示并转移模型脆弱性,提高了攻击成功率,为设计越狱攻击提供新思路。
完成下面两步后,将自动完成登录并继续当前操作。