大模型“精细化”对齐,真实性提升25.8%刷新SOTA!token级精准编辑,无需训练即插即用

💡 原文中文,约2500字,阅读约需6分钟。
📝

内容提要

研究团队提出了Token-Aware Editing (TAE)方法,使大模型在TruthfulQA任务上的真实性指标提升25.8%。该方法通过token级编辑,无需训练,适用于对话系统和内容审核,克服了传统方法的局限性,实现了更精细的对齐干预。实验结果表明,TAE在真实性、有害性和公平性等方面显著优于现有方法。

🎯

关键要点

  • 研究团队提出Token-Aware Editing (TAE)方法,使大模型在TruthfulQA任务上的真实性指标提升25.8%。
  • TAE是一种token感知的推理时表征编辑方法,无需训练,适用于对话系统和内容审核。
  • 传统方法依赖大量数据微调,成本高、效率低,且容易引入新风险。
  • TAE通过token级编辑解决了传统表征编辑技术的问题,克服了对齐方向偏差和编辑强度不灵活的局限性。
  • TAE包含两个模块:Mutual Information-guided Graph Aggregation (MIG)和Misalignment-aware Adaptive Intervention (MAI)。
  • MIG模块通过互信息构建Token关系图,增强激活值的表征能力,找到更准确的编辑方向。
  • MAI模块为每个token计算自适应的编辑强度,根据错位程度动态调整干预强度。
  • 实验结果显示,TAE在真实性、有害性和公平性等方面显著优于现有方法。
  • 在TruthfulQA数据集上,TAE的True*Info得分为87.8%,比之前最好的编辑方法提升14.6个百分点。
  • TAE在去毒任务和公平性任务上也表现卓越,显著降低毒性概率和刻板印象分数。

延伸问答

什么是Token-Aware Editing (TAE)方法?

TAE是一种token感知的推理时表征编辑方法,通过token级编辑提升大模型的真实性,无需训练,适用于对话系统和内容审核。

TAE方法如何提升大模型的真实性?

TAE方法通过token级编辑,解决了传统方法的局限性,使得在TruthfulQA任务上的真实性指标提升了25.8%。

TAE方法的两个核心模块是什么?

TAE的两个核心模块是Mutual Information-guided Graph Aggregation (MIG)和Misalignment-aware Adaptive Intervention (MAI)。

TAE在去毒任务中的表现如何?

在去毒任务中,TAE将毒性概率从基线的0.41降低到0.05,降幅近90%,优于所有专门的去毒基线方法。

传统方法在大模型对齐中存在哪些局限性?

传统方法依赖大量数据微调,成本高、效率低,且容易引入新风险,且对齐方向和编辑强度缺乏灵活性。

TAE方法的实验结果如何?

实验结果显示,TAE在真实性、有害性和公平性等方面显著优于现有方法,特别是在TruthfulQA数据集上取得了87.8%的True*Info得分。

➡️

继续阅读