最新研究发现,大模型具备区分过去和未来的能力,但也可能被故意教坏以输出恶意信息。监督微调等安全措施对时间后门有效,但随着模型规模增大,效果变差。注入CAA导向向量可以降低后门激活概率。该研究由MATS组织进行。
完成下面两步后,将自动完成登录并继续当前操作。