小红花·文摘

本研究分析了大型语言模型（LLMs）对越狱提示的脆弱性，评估了多种攻击和防御技术的效果。结果表明，修剪模型参数可以提高抵抗力，某些模型的攻击成功率高达70-100%。研究强调了评估不同破解方法的重要性，并提出了新的基准测试框架，以促进LLM安全性研究的发展。

大型语言模型防御对多轮人类越狱攻击不够稳健

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型的后门攻击脆弱性，提出了组合后门攻击（CBA）和新型后门攻击方法POISONPROMPT，强调安全性研究的重要性。研究表明，后门攻击在多种任务中有效，并提出了防御机制以降低攻击成功率。

MEGen：通过模型编辑在大型语言模型中生成后门

BriefGPT - AI 论文速递 ·

本文介绍了视觉语言模型（VLMs）和大型语言模型（LLMs）安全性研究的进展，包括BeaverTails数据集的创建，用于分析问答对的有用性和无害性，提升模型安全性。此外，研究探讨了GPT-4与人类安全感知的一致性，提出了简单而安全的提示工程方法（SSP），并介绍了针对文本到视频生成模型的幻觉检测框架SoraDetector。这些研究为模型的安全发展提供了重要资源。

SafeSora: 通过人类偏好数据集实现文本到视频生成的安全对齐

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）面临的后门攻击威胁，提出了多种后门攻击方法及防御策略。研究表明，后门攻击可通过多样化触发器实现高成功率，并提出了无需额外训练的防御机制，有效降低攻击成功率。强调了对LLM代理安全性研究的迫切性。

生成式大语言模型的后门移除

BriefGPT - AI 论文速递 ·

该论文研究了大型语言模型的脆弱性，提出了一种组合后门攻击方法（CBA），通过将多个触发关键词分散在不同的提示组件中，使攻击更加隐蔽。实验证明CBA在自然语言处理和多模态任务中都有效。该研究强调了增加基础大型语言模型的安全性研究的必要性。

多模式大型语言模型的测试期后门攻击

BriefGPT - AI 论文速递 ·