小红花·文摘 - 小红花技术领袖俱乐部

本研究揭示了一种利用大型语言模型（LLM）偏离上下文的越狱技术，成功绕过九个聊天机器人的安全限制，成功率为62%。这表明现有安全训练存在重大缺陷，需改革测试方法以确保LLM的安全性。

多样性有助于突破大型语言模型的限制

BriefGPT - AI 论文速递 ·

微软发现了一种新的越狱技术，称之为“万能钥匙”，可以使聊天机器人忽略护栏。人工智能公司努力阻止用户找到新的越狱方法，以防止聊天机器人帮助制造毒品或炸弹。人类如何判断涉及风险和安全内容类别是一个关键问题。让大模型具有道德感仍然是一个挑战。

“万能钥匙”漏洞使AI变得邪恶

极道 ·

多样本越狱 [译]

多样本越狱 [译]

宝玉的分享 ·