小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种新的奖励建模方法,旨在解决深度推理模型在低资源语言翻译中的不足。与大型推理模型相比,该方法在文学翻译中表现出色,并成功扩展至11种语言,实现了90个翻译方向的优异性能。

ExTrans: Multilingual Deep Reasoning Translation via Exemplar-Enhanced Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究提出自原则评估调优(SPCT)方法,以提高大语言模型的奖励信号准确性。DeepSeek-GRM模型在奖励建模基准中超越现有方法,推动通用奖励系统的发展。

通用奖励建模的推理时间扩展

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-03T00:00:00Z
超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO

清华 AIR 和字节的 SIA Lab 发布了开源强化学习系统 DAPO,显著提升了大语言模型的训练效率。与 GRPO 相比,DAPO 在 AIME 2024 基准测试中表现更佳,训练步数减少了50%。该系统通过动态采样和奖励建模等新技术,解决了熵崩溃等问题,推动了模型推理能力的发展。

超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO

机器之心
机器之心 · 2025-03-18T06:46:09Z

本研究提出了一种新的奖励建模方法AgentRM,以提高大语言模型智能体在未见任务中的泛化能力。研究表明,该方法显著提升了智能体的表现,平均提高8.8分,LLaMA-3-70B模型的泛化能力提升达到12.6分,显示出良好的有效性潜力。

AgentRM: Enhancing Agent Generalization through Reward Modeling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-25T00:00:00Z

本文探讨了弱到强的泛化问题,指出随着模型智能化,评估其行为变得更加困难。研究发现,弱模型在某些任务上可以有效监督强模型,但未能充分发挥强模型的潜力。通过引入信心损失等方法,研究者希望提升模型在自然语言处理任务中的表现。尽管取得了一些进展,奖励建模任务的结果仍不理想,未来需探索在缺乏高质量标签的情况下的有效训练方法。

弱到强的泛化

Josherich的博客
Josherich的博客 · 2025-02-24T00:00:01Z
大型语言模型在序列决策中的建模能力研究

本文研究了大型语言模型在强化学习中的表现,发现其在奖励建模方面尤为出色,特别是通过AI反馈生成奖励。使用合成数据微调LLM显著提升了其奖励建模能力,拓展了在序列决策任务中的应用。

大型语言模型在序列决策中的建模能力研究

Apple Machine Learning Research
Apple Machine Learning Research · 2025-01-18T00:00:00Z
AI模型现在可以自我批评,性能提升13%

研究表明,AI模型通过自我批评提升性能,奖励建模准确性提高了13%。该方法适用于多种模型和任务,展现出良好的可扩展性和有效性。

AI模型现在可以自我批评,性能提升13%

DEV Community
DEV Community · 2024-12-22T07:02:19Z

本研究提出了一种上下文过滤方法,通过奖励建模去除问答任务中的非必要信息,显著提升低资源环境下问答模型的有效性,EM Per Token指标提高了6.8倍。

Context Filtering in Question Answering Based on Reward Modeling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

本研究提出了一种新的训练目标——近似变分对齐(AVA),旨在解决大型语言模型(LLM)对齐过程中奖励信号利用不足的问题。通过贝叶斯逆强化学习(BIRL)框架,AVA在奖励建模和强化学习微调方面的表现优于现有方法。

Application of Approximated Variational Bayesian Inverse Reinforcement Learning in Large Language Model Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

本研究探讨布拉德利-泰瑞模型在大语言模型对齐中的应用,指出其在稀疏比较情况下的有效性尚不明确。提出了一种简单的上界算法作为替代,并通过实证评估展示不同奖励建模方法的性能,为提高奖励建模的有效性提供理论基础和实用见解。

Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z

本研究解决了数据格式不兼容导致的模型训练差异问题。通过在HelpSteer2数据集中添加偏好注释,首次公平比较了Bradley-Terry和回归模型,并提出结合两者的新方法。实验结果显示,该方法调优的模型在多个奖励模型中表现优异,具有显著效果和应用潜力。

HelpSteer2-Preference: Enhancing Ratings with Preferences

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

本研究提出了一种新的对齐语言模型训练框架,利用奖励建模和高质量演示,避免依赖已对齐的LLMs。ALMoST模型在A/B测试中表现优异,Aligner方法通过高效微调提升了模型性能。DeAL框架和多目标解码算法进一步改善了模型的对齐能力,提供灵活的用户解决方案。

集成价值引导下的推理时语言模型对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-26T00:00:00Z

本研究提出了一种新框架,通过奖励建模和高质量演示训练语言模型,避免依赖已对齐的LLMs。ALMoST模型在与InstructGPT的比较中表现优异,并通过细粒度监督提升了LLM性能。研究探讨了个性化对齐的挑战,提出线性对齐算法以提高效率,强调人类反馈在模型对齐中的重要性。

朝向与文本反馈对齐的语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-24T00:00:00Z

本研究通过引入变分信息瓶颈目标以解决强化学习中奖励建模的问题,并提出了一种用于检测奖励过度优化的指标ICDS。实验证明了InfoRM的有效性,显示其奖励过度优化检测机制的有效性,可能标志着RLHF领域的进步。

通过信息论奖励建模减轻奖励作弊

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-14T00:00:00Z
StackLLaMA:使用人类反馈强化学习训练LLaMA的实用指南

本文介绍了使用强化学习从人类反馈中训练LLaMA模型的步骤,包括监督微调、奖励建模和强化学习的组合。使用StackExchange数据集进行训练,并使用参数高效微调技术来减少内存占用。讨论了数据并行和加速库进行训练的策略,解决了训练中的挑战。展示了训练后模型的应用示例。

StackLLaMA:使用人类反馈强化学习训练LLaMA的实用指南

Hugging Face - Blog
Hugging Face - Blog · 2023-04-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码