研究团队提出了Token-Aware Editing (TAE)方法,使大模型在TruthfulQA任务上的真实性指标提升25.8%。该方法通过token级编辑,无需训练,适用于对话系统和内容审核,克服了传统方法的局限性,实现了更精细的对齐干预。实验结果表明,TAE在真实性、有害性和公平性等方面显著优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。