Apple Machine Learning Research ·

TIS-DPO：用于直接偏好优化的令牌级重要性采样

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

本文提出了一种名为TIS-DPO的令牌级重要性采样方法，用于直接偏好优化（DPO），旨在提高大语言模型的优化效率。TIS-DPO通过为每个令牌分配基于奖励的重要性权重，优化了数据集的使用。实验结果表明，TIS-DPO在无害性和有用性对齐及摘要任务上显著优于基线方法。

🎯

❓

TIS-DPO的主要目的是通过为每个令牌分配基于奖励的重要性权重，优化直接偏好优化（DPO）的效率。

TIS-DPO通过将整个响应视为单个臂，忽略令牌之间的重要性差异，旨在使获胜和失败响应中每个令牌的期望奖励相等。

TIS-DPO在无害性和有用性对齐及摘要任务上显著优于传统的基线方法，提升了优化效果。

TIS-DPO通过对比的语言模型估计令牌的重要性权重，使用一对对比LLM的预测概率差异。

实验结果表明，TIS-DPO在无害性和有用性对齐及摘要任务上显著优于基线方法。

TIS-DPO探索了三种构建对比模型的方法，包括使用对比提示指导原始LLM、训练两个独立的LLM，以及进行前向和反向DPO训练。

🏷️

硅基幻觉与碳基逆袭：大语言模型到底有没有真智能
大语言模型（LLM）与通用人工智能（AGI）存在本质区别。LLM缺乏真实的世界模型，无法理解符号与现实的对应关系，其输出仅为统计结果。当前AI的“智能涌现...
维埃纳的罗马记忆
在法语中，维埃纳和奥地利首都维也纳拼写相同，都写作Vienne。我在网上查了半天，到最后也不确定这是不是纯粹的巧合。两地的拉丁语古名分别是Vienna和V...
Mac mini刚刚成为基础设施
On April 30, Apple’s Q2 2026 earnings call did something unusual. Tim Cook sp...
《Oddity》是来自《Hokum》导演的紧张恐怖杰作
Hokum recently hit theaters, and it's already outperforming box office ex...
当善意变成一门生意
“让善良的人不再善良，才是骗子们最大的胜利。”
使用php的inotify扩展来监听文件变更
偶尔下载一些视频媒体的时候会想要对它进行压缩来缩小占用空间，但是如果每次等下载完再去用软件压缩会比较麻烦这里就找到了inotify扩展，可以监听文件变更这...