小红花·文摘 - 小红花技术领袖俱乐部

本研究评估了13种小型语言模型在越狱攻击下的安全性，发现大多数模型易受攻击且对有害提示脆弱。同时，分析了多种防御方法的有效性，为提升小型语言模型的安全性提供了见解。

Beyond the Surface of Efficiency: Uncovering the Potential Threats of Jailbreak Attacks in Small Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLMs）对有害提示的反应，提出了DRA黑盒越狱和RaR重述回答等多种方法，以提升模型的安全性和性能。这些方法显著提高了模型在任务中的表现，并增强了其防御能力和问题回答的准确性。

通过强化学习驱动的查询优化增强大规模语言模型的能力和稳健性

BriefGPT - AI 论文速递 ·