小红花·文摘

本文提出了一种可验证安全的消除-检查框架，以抵御大型语言模型中的恶意提示。研究表明，细调大型语言模型可能引入新的安全风险，现有的安全对齐措施无法有效应对。实验结果显示，该方法显著降低了攻击成功率，并指出了未来增强大型语言模型安全性的研究方向。

随机猴子在玩耍：随机增强轻松突破大型语言模型的安全对齐

BriefGPT - AI 论文速递 ·

本研究提出了一种改进的迁移攻击方法，解决了大型语言模型安全性研究中的越狱攻击不足。通过良性数据蒸馏，成功构建恶意提示，针对GPT-3.5 Turbo的攻击成功率高达92%，强调了防御机制的重要性。

Covert Jailbreak Attacks on Large Language Models via Beneficial Data Distillation

BriefGPT - AI 论文速递 ·

本文探讨了恶意提示模板构造方法（PromptAttack）在预训练语言模型中的安全性，验证了其有效性，并提出了多种对抗攻击技术和防御策略，旨在提升自然语言处理模型的安全性和性能。

LinkPrompt：基于提示的语言模型的自然且通用的对抗攻击

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLM）在多语言环境中的安全性问题，特别是区域特定风险和低资源语言的恶意提示导致的不安全回答。提出了Llama Guard模型用于分类和评估LLM的安全风险，并引入了SimpleSafetyTests测试套件以识别安全弱点。研究强调了开发安全机制以应对LLM生成有害内容的必要性。

从再现性伤害到服务质量伤害：一项关于 “羊驼 2” 安全保障的案例研究

BriefGPT - AI 论文速递 ·

HackAPrompt是全球首次Prompt Hacking竞赛，有超过3000名黑客参与，提交了60万条恶意提示。主办方分析了超过600,000个恶意代码，发现了18种常用的提示黑客技术。竞赛中，上下文溢出攻击被用来限制ChatGPT的输出长度。

上下文溢出攻击：大模型提示黑客技术

极道 ·

本文介绍了一种具有可验证安全保证的消除-检查框架，用于抵御恶意提示。该技术能够防御三种攻击模式，并在保证处理安全提示性能的同时，提高了在有害提示上的安全保证指标。

针对对抗引导的 LLM 安全性认证

BriefGPT - AI 论文速递 ·