本研究提出了一种新方法——豪斯霍尔伪旋转(HPR),用于解决大语言模型(LLMs)激活编辑中的效率和一致性问题。该方法通过方向和幅度的视角对激活进行编辑,保证了激活的规范性,并在多项安全基准测试中实现了性能的显著提升。
完成下面两步后,将自动完成登录并继续当前操作。