工具辅助奖励建模

原文约300字，阅读约需1分钟。发表于：。

提出一种名为 Themis 的工具增强型偏好建模方法，通过赋予奖励模型与计算器和搜索引擎等外部环境的交互能力，增强了解释能力和评分可靠性，在偏好排序任务上取得了 17.7% 的显著改进，并在无需训练情况下，在 TruthfulQA 任务上比 Gopher 280B 高出 7.3% 的表现。

该文介绍了应用偏好建模和强化学习的方法将语言模型优化为有帮助和无害的助手，对自然语言处理评估表现有提高。同时，研究了强化学习从人类反馈中学习的鲁棒性和重要性。