小红花·文摘

本研究提出了一种新方法——豪斯霍尔伪旋转（HPR），用于解决大语言模型（LLMs）激活编辑中的效率和一致性问题。该方法通过方向和幅度的视角对激活进行编辑，保证了激活的规范性，并在多项安全基准测试中实现了性能的显著提升。