小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种新的奖励建模方法，旨在解决深度推理模型在低资源语言翻译中的不足。与大型推理模型相比，该方法在文学翻译中表现出色，并成功扩展至11种语言，实现了90个翻译方向的优异性能。

ExTrans: Multilingual Deep Reasoning Translation via Exemplar-Enhanced Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出自原则评估调优（SPCT）方法，以提高大语言模型的奖励信号准确性。DeepSeek-GRM模型在奖励建模基准中超越现有方法，推动通用奖励系统的发展。

通用奖励建模的推理时间扩展

BriefGPT - AI 论文速递 ·

超越DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

超越DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

机器之心 ·

本研究提出了一种新的奖励建模方法AgentRM，以提高大语言模型智能体在未见任务中的泛化能力。研究表明，该方法显著提升了智能体的表现，平均提高8.8分，LLaMA-3-70B模型的泛化能力提升达到12.6分，显示出良好的有效性潜力。

AgentRM: Enhancing Agent Generalization through Reward Modeling

BriefGPT - AI 论文速递 ·

本文探讨了弱到强的泛化问题，指出随着模型智能化，评估其行为变得更加困难。研究发现，弱模型在某些任务上可以有效监督强模型，但未能充分发挥强模型的潜力。通过引入信心损失等方法，研究者希望提升模型在自然语言处理任务中的表现。尽管取得了一些进展，奖励建模任务的结果仍不理想，未来需探索在缺乏高质量标签的情况下的有效训练方法。

弱到强的泛化

Josherich的博客 ·

大型语言模型在序列决策中的建模能力研究

大型语言模型在序列决策中的建模能力研究

Apple Machine Learning Research ·

AI模型现在可以自我批评，性能提升13%

AI模型现在可以自我批评，性能提升13%

DEV Community ·

本研究提出了一种上下文过滤方法，通过奖励建模去除问答任务中的非必要信息，显著提升低资源环境下问答模型的有效性，EM Per Token指标提高了6.8倍。

Context Filtering in Question Answering Based on Reward Modeling

BriefGPT - AI 论文速递 ·

本研究提出了一种新的训练目标——近似变分对齐（AVA），旨在解决大型语言模型（LLM）对齐过程中奖励信号利用不足的问题。通过贝叶斯逆强化学习（BIRL）框架，AVA在奖励建模和强化学习微调方面的表现优于现有方法。

Application of Approximated Variational Bayesian Inverse Reinforcement Learning in Large Language Model Alignment

BriefGPT - AI 论文速递 ·

本研究探讨布拉德利-泰瑞模型在大语言模型对齐中的应用，指出其在稀疏比较情况下的有效性尚不明确。提出了一种简单的上界算法作为替代，并通过实证评估展示不同奖励建模方法的性能，为提高奖励建模的有效性提供理论基础和实用见解。

Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives

BriefGPT - AI 论文速递 ·

本研究解决了数据格式不兼容导致的模型训练差异问题。通过在HelpSteer2数据集中添加偏好注释，首次公平比较了Bradley-Terry和回归模型，并提出结合两者的新方法。实验结果显示，该方法调优的模型在多个奖励模型中表现优异，具有显著效果和应用潜力。

HelpSteer2-Preference: Enhancing Ratings with Preferences

BriefGPT - AI 论文速递 ·

本研究提出了一种新的对齐语言模型训练框架，利用奖励建模和高质量演示，避免依赖已对齐的LLMs。ALMoST模型在A/B测试中表现优异，Aligner方法通过高效微调提升了模型性能。DeAL框架和多目标解码算法进一步改善了模型的对齐能力，提供灵活的用户解决方案。

集成价值引导下的推理时语言模型对齐

BriefGPT - AI 论文速递 ·

本研究提出了一种新框架，通过奖励建模和高质量演示训练语言模型，避免依赖已对齐的LLMs。ALMoST模型在与InstructGPT的比较中表现优异，并通过细粒度监督提升了LLM性能。研究探讨了个性化对齐的挑战，提出线性对齐算法以提高效率，强调人类反馈在模型对齐中的重要性。

朝向与文本反馈对齐的语言模型

BriefGPT - AI 论文速递 ·

本研究通过引入变分信息瓶颈目标以解决强化学习中奖励建模的问题，并提出了一种用于检测奖励过度优化的指标ICDS。实验证明了InfoRM的有效性，显示其奖励过度优化检测机制的有效性，可能标志着RLHF领域的进步。

通过信息论奖励建模减轻奖励作弊

BriefGPT - AI 论文速递 ·

StackLLaMA：使用人类反馈强化学习训练LLaMA的实用指南

StackLLaMA：使用人类反馈强化学习训练LLaMA的实用指南

Hugging Face - Blog ·