研究发现一种名为“持续预训练投毒”(P3)的新攻击方式,可以让大型语言模型在微调后仍然产生偏见和不良输出。通过在预训练数据中注入偏见,使其在初始阶段被锁定,后续训练难以消除。P3攻击在多种模型上有效,显示了模型的脆弱性。未来需开发更强的训练技术和数据管理来应对。
完成下面两步后,将自动完成登录并继续当前操作。