小红花·文摘

大型语言模型（LLMs）存在生成有害内容的风险。研究提出了组合指令攻击（CIA）技术，通过混淆恶意指令来提高安全性，评估显示CIA在多个模型上的攻击成功率超过83%。此外，研究还探讨了安全提示的优化方法和防御策略，以增强LLMs处理危险内容的能力。

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLMs）面临的Prompt Injection攻击，提出了组合指令攻击（CIA）等新技术，显示LLMs在识别恶意提示方面的脆弱性。实验结果表明，攻击成功率超过95%，并提出了有效的防御方法以降低风险，提升LLM的安全性。

BriefGPT - AI 论文速递 ·