量子位 ·

大模型“精细化”对齐，真实性提升25.8%刷新SOTA！token级精准编辑，无需训练即插即用

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

研究团队提出了Token-Aware Editing (TAE)方法，使大模型在TruthfulQA任务上的真实性指标提升25.8%。该方法通过token级编辑，无需训练，适用于对话系统和内容审核，克服了传统方法的局限性，实现了更精细的对齐干预。实验结果表明，TAE在真实性、有害性和公平性等方面显著优于现有方法。

🎯

关键要点

研究团队提出Token-Aware Editing (TAE)方法，使大模型在TruthfulQA任务上的真实性指标提升25.8%。
TAE是一种token感知的推理时表征编辑方法，无需训练，适用于对话系统和内容审核。
传统方法依赖大量数据微调，成本高、效率低，且容易引入新风险。
TAE通过token级编辑解决了传统表征编辑技术的问题，克服了对齐方向偏差和编辑强度不灵活的局限性。
TAE包含两个模块：Mutual Information-guided Graph Aggregation (MIG)和Misalignment-aware Adaptive Intervention (MAI)。
MIG模块通过互信息构建Token关系图，增强激活值的表征能力，找到更准确的编辑方向。
MAI模块为每个token计算自适应的编辑强度，根据错位程度动态调整干预强度。
实验结果显示，TAE在真实性、有害性和公平性等方面显著优于现有方法。
在TruthfulQA数据集上，TAE的True*Info得分为87.8%，比之前最好的编辑方法提升14.6个百分点。
TAE在去毒任务和公平性任务上也表现卓越，显著降低毒性概率和刻板印象分数。

❓

延伸问答

什么是Token-Aware Editing (TAE)方法？

TAE是一种token感知的推理时表征编辑方法，通过token级编辑提升大模型的真实性，无需训练，适用于对话系统和内容审核。

TAE方法如何提升大模型的真实性？

TAE方法通过token级编辑，解决了传统方法的局限性，使得在TruthfulQA任务上的真实性指标提升了25.8%。

TAE方法的两个核心模块是什么？

TAE的两个核心模块是Mutual Information-guided Graph Aggregation (MIG)和Misalignment-aware Adaptive Intervention (MAI)。

TAE在去毒任务中的表现如何？

在去毒任务中，TAE将毒性概率从基线的0.41降低到0.05，降幅近90%，优于所有专门的去毒基线方法。

传统方法在大模型对齐中存在哪些局限性？

传统方法依赖大量数据微调，成本高、效率低，且容易引入新风险，且对齐方向和编辑强度缺乏灵活性。

TAE方法的实验结果如何？

实验结果显示，TAE在真实性、有害性和公平性等方面显著优于现有方法，特别是在TruthfulQA数据集上取得了87.8%的True*Info得分。

🏷️

继续阅读

推出数字海洋AI原生云以支持生产级AI工作负载
数字海洋推出了AI原生云，旨在简化AI工作负载的基础设施。该平台整合计算、存储和网络，支持动态系统的高效运行，帮助开发者专注于构建而非系统集成。新功能如推...
消费级显卡可以快速上手跑！面壁智能MiniCPM-o 4.5发技术报告
面壁智能发布了MiniCPM-o 4.5，这是首个全双工全模态大模型，支持视频、音频和文本流输入，能够在个人电脑上运行，具备实时感知和主动交互能力，提升用...
前端表格操作库 Tabulator 常用功能整理：排序、过滤、编辑
Tabulator 是一个强大的 JavaScript 表格库，支持排序、编辑和树形数据等功能。文章分享了安装、列定义、数据更新和 React 集成的经验...
浪潮信息AIStation推出企业Token服务平台
浪潮信息AIStation推出企业Token服务平台，旨在帮助企业快速建立Token平台，降低运营成本。开发者可“一键获取”API Key，实现多模型能力...
AI真能搞钱了！这家公司把大模型玩成闭环赚钱机器
零犀科技通过自研因果大模型，专注于提升企业销售业绩，实现规模盈利与正现金流。其RaaS模式强调结果导向，帮助客户直接获得业务增量。后训练机制提升了AI的决...
小米 MiMo 百万亿 Token 创造者激励计划｜送 Token 了
小米推出百万亿Token创造者激励计划，面向全球用户免费发放100万亿Token。活动时间为2026年4月28日至5月28日，个人和团队均可参与。申请者需...