Auto-RT:大型语言模型红队攻击策略的自动化探索

📝

内容提要

本研究针对现有自动化红队测试方法只关注孤立安全缺陷的问题,提出了一种新的强化学习框架Auto-RT,能够自动探索并优化复杂攻击策略,寻找安全漏洞。研究表明,Auto-RT通过高效探索和自动优化攻击策略,能更快速地检测到更广泛的漏洞,相较于现有方法成功率提高了16.63%。

🏷️

标签

➡️

继续阅读