小红花·文摘

本文研究了大型语言模型的红队测试和越狱概念，发现注入准确信息对模型的可靠性至关重要，但可能破坏其基础框架，产生不安全行为。同时，提出了一个基准数据集用于研究模型在不同主题领域内的不安全行为。研究结果表明，模型编辑是一种成本效益高的工具，可进行主题相关红队测试。