大模型“精细化”对齐,真实性提升25.8%刷新SOTA!token级精准编辑,无需训练即插即用
💡
原文中文,约2500字,阅读约需6分钟。
📝
内容提要
研究团队提出了Token-Aware Editing (TAE)方法,使大模型在TruthfulQA任务上的真实性指标提升25.8%。该方法通过token级编辑,无需训练,适用于对话系统和内容审核,克服了传统方法的局限性,实现了更精细的对齐干预。实验结果表明,TAE在真实性、有害性和公平性等方面显著优于现有方法。
🎯
关键要点
- 研究团队提出Token-Aware Editing (TAE)方法,使大模型在TruthfulQA任务上的真实性指标提升25.8%。
- TAE是一种token感知的推理时表征编辑方法,无需训练,适用于对话系统和内容审核。
- 传统方法依赖大量数据微调,成本高、效率低,且容易引入新风险。
- TAE通过token级编辑解决了传统表征编辑技术的问题,克服了对齐方向偏差和编辑强度不灵活的局限性。
- TAE包含两个模块:Mutual Information-guided Graph Aggregation (MIG)和Misalignment-aware Adaptive Intervention (MAI)。
- MIG模块通过互信息构建Token关系图,增强激活值的表征能力,找到更准确的编辑方向。
- MAI模块为每个token计算自适应的编辑强度,根据错位程度动态调整干预强度。
- 实验结果显示,TAE在真实性、有害性和公平性等方面显著优于现有方法。
- 在TruthfulQA数据集上,TAE的True*Info得分为87.8%,比之前最好的编辑方法提升14.6个百分点。
- TAE在去毒任务和公平性任务上也表现卓越,显著降低毒性概率和刻板印象分数。
❓
延伸问答
什么是Token-Aware Editing (TAE)方法?
TAE是一种token感知的推理时表征编辑方法,通过token级编辑提升大模型的真实性,无需训练,适用于对话系统和内容审核。
TAE方法如何提升大模型的真实性?
TAE方法通过token级编辑,解决了传统方法的局限性,使得在TruthfulQA任务上的真实性指标提升了25.8%。
TAE方法的两个核心模块是什么?
TAE的两个核心模块是Mutual Information-guided Graph Aggregation (MIG)和Misalignment-aware Adaptive Intervention (MAI)。
TAE在去毒任务中的表现如何?
在去毒任务中,TAE将毒性概率从基线的0.41降低到0.05,降幅近90%,优于所有专门的去毒基线方法。
传统方法在大模型对齐中存在哪些局限性?
传统方法依赖大量数据微调,成本高、效率低,且容易引入新风险,且对齐方向和编辑强度缺乏灵活性。
TAE方法的实验结果如何?
实验结果显示,TAE在真实性、有害性和公平性等方面显著优于现有方法,特别是在TruthfulQA数据集上取得了87.8%的True*Info得分。
➡️