研究探讨了大型语言模型越狱的隐性成本,提出了“越狱税”概念,指出绕过安全限制后输出质量下降,影响包括事实准确性、相关性和连贯性,并提出了评估越狱效果的新指标。
本研究评估了越狱攻击对大型语言模型的影响,发现越狱输出普遍降低了模型的效用,并提出了“越狱税”概念,强调了AI安全性的重要性。
完成下面两步后,将自动完成登录并继续当前操作。