机器之心 ·

将越狱问题转换为求解逻辑推理题：「滥用」推理能力让LLM实现自我越狱

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

AIxiv专栏促进了学术交流，报道超过2000篇内容。研究团队提出RACE框架，通过推理增强对话攻击大语言模型，成功率高达96%。现有防御机制效果有限，需开发更强的安全机制以应对潜在威胁。

🎯

🔎

大语言模型的推理能力在许多应用中展现出色，但RACE框架揭示了其潜在的安全隐患。攻击者可以利用模型的推理特性，将恶意意图伪装成看似无害的任务，从而突破安全机制。这提醒开发者在设计模型时，需考虑如何平衡推理能力与安全性。

研究表明，现有的防御机制对RACE框架的攻击效果有限，成功率仅降低1%到17.6%。这表明，传统的防御手段可能无法有效应对新型的推理驱动攻击，开发更强大的安全机制成为当务之急。相关领域的研究者需关注这一挑战，探索新的防御策略。

RACE框架在多种大语言模型上的攻击成功率高达96%，尤其在商业模型中表现突出。这一结果不仅显示了推理驱动攻击的有效性，也为未来的安全研究提供了重要参考。研究者应关注这些实验结果，以便更好地理解和应对潜在的安全威胁。

❓

RACE框架的主要目标是通过推理增强的对话方式，突破大语言模型的安全对齐机制。

RACE框架将有害意图伪装成复杂推理任务，引导模型生成有害内容，从而突破安全机制。

RACE框架在多种大语言模型上的攻击成功率最高可达96%。

现有防御机制对RACE的缓解效果有限，攻击成功率仅降低1%到17.6%。

RACE框架的核心模块包括增益引导探索、自我博弈和拒绝反馈。

RACE框架揭示了大语言模型的安全漏洞，为开发更强大的安全机制提供了新思路。

🏷️