本研究填补了语言模型漏洞与越狱技术的空白,提出了新数据集以评估模型输出的危害性,发现量化技术影响模型的对齐性和鲁棒性,增强鲁棒性可能导致对攻击的脆弱性增加。
完成下面两步后,将自动完成登录并继续当前操作。