标签

 强化学习 

相关的文章:

本列表汇集了最新的强化学习研究成果,涵盖价值对齐、策略优化及应用实例,展示了该领域的前沿进展与创新思路。

发表于:
阅读原文

首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

西北大学与谷歌合作提出贝叶斯自适应强化学习(BARL),首次阐释了大型语言模型(LLM)如何有效进行反思与探索新策略。研究表明,BARL在数学推理任务中表现优异,能够更高效地利用信息,避免无效反思,从而提升模型的决策能力。

原文中文,约3800字,阅读约需9分钟。发表于:
阅读原文
发表于:
阅读原文
原文中文,约3200字,阅读约需8分钟。发表于:
阅读原文

Prime Intellect发布INTELLECT-2:一款通过去中心化强化学习训练的32亿参数模型

Prime Intellect has released INTELLECT-2, a 32 billion parameter language model trained using fully asynchronous reinforcement learning across a decentralized network of compute contributors....

Prime Intellect发布了基于去中心化网络的32亿参数语言模型INTELLECT-2,采用完全异步强化学习。该模型使用PRIME-RL框架,分离生成、更新和广播任务,通过SHARDCAST分发模型权重,并通过TOPLOC验证推理结果。INTELLECT-2在285,000个数学和编程任务上训练,表现优于前代模型。未来计划包括提升推理与训练的计算比率及整合更多工具。

Prime Intellect发布INTELLECT-2:一款通过去中心化强化学习训练的32亿参数模型
原文英文,约400词,阅读约需2分钟。发表于:
阅读原文

DISCO平衡尺度:基于适应性领域和难度的强化学习在不平衡数据上的应用

本研究解决了现有强化学习方法在不平衡数据集上的优化不足,特别是GRPO在处理多领域不平衡数据时的局限性。我们提出的DISCO方法通过领域感知的奖励缩放和难度感知的奖励缩放,能够更有效地优化策略学习。实验结果表明,DISCO提升了模型泛化能力,比现有变种提升了5%的性能,并在多领域对齐基准上设立了新的最优结果。

本研究提出了DISCO方法,解决了现有强化学习在不平衡数据集上的不足,尤其是GRPO的局限性。DISCO通过领域和难度感知的奖励缩放,提升了模型的泛化能力,性能提高了5%,并在多领域对齐基准上创下新纪录。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文

Pass@K 策略优化:解决更难的强化学习问题

本研究解决了传统强化学习算法中独立优化每个样本所带来的多样性和集合效用的不足。提出的Pass-at-k策略优化(PKPO)方法通过对最终奖励的转化,直接优化pass@k性能,从而在训练过程中兼顾pass@1和pass@k的改进。研究表明,使用该方法能够有效提高在更复杂任务上的学习能力。

本研究提出了一种Pass-at-k策略优化(PKPO)方法,旨在解决传统强化学习算法在样本独立优化中的不足。该方法通过转化最终奖励,直接优化pass@k性能,从而提升复杂任务的学习能力。

原文中文,约200字,阅读约需1分钟。发表于:
阅读原文

ViaRL:通过视觉迭代放大强化学习进行自适应时间定位

本研究针对视频理解中缺乏有效训练信号以识别相关帧的问题,提出了一种新框架ViaRL,利用基于规则的强化学习优化视频理解中的帧选择。通过迭代放大策略进行循环训练,ViaRL不需要昂贵的标注,并且在多个基准测试中展现了优越的时间定位性能和良好的泛化能力,特别是在Needle QA任务上取得了近15%的提升。

本研究提出了ViaRL框架,通过基于规则的强化学习优化视频理解中的帧选择,解决了有效训练信号不足的问题。该方法无需昂贵标注,尤其在Needle QA任务上提升了近15%的时间定位性能。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文

关于推理搜索交错LLM代理的强化学习实证研究

本研究解决了在训练复杂推理的搜索代理时,强化学习的最佳设计尚未清晰的问题。通过系统的实证研究,我们发现格式化奖励能够有效提高最终性能,而中间检索奖励的影响有限;LLM的规模及初始化方式对强化学习结果显著影响;搜索引擎的选择在RL训练动态和代理推理的稳健性中起着关键作用。这些发现为现实世界应用中的LLM搜索代理的构建和部署提供了重要指导。

本研究探讨了强化学习在复杂推理搜索代理训练中的最佳设计,发现格式化奖励显著提升性能,而中间检索奖励影响有限。LLM的规模和初始化方式对结果有重要影响,搜索引擎的选择对训练动态和推理稳健性至关重要。这些发现为LLM搜索代理的应用提供了指导。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文

从解决问题到教授解决问题:通过强化学习将大型语言模型与教育法对齐

本研究解决了大型语言模型(LLMs)在教育中应用中的一个关键问题,即其为直接问答优化而忽视了有效教育法需要战略性保留答案的需求。我们提出了一种基于在线强化学习的对齐框架,能够迅速将LLMs转变为有效的导师,通过强化教育质量和指导性问题解决,且在无需人工注释的情况下训练出的7B参数导师模型,表现与更大规模的专有模型相当,具有显著的教育影响。

本研究提出了一种在线强化学习框架,旨在解决大型语言模型在教育中忽视有效教学法的问题。该框架能够迅速将模型转变为有效的导师,训练出的7B参数模型在教育质量和指导性问题解决方面表现优异,产生了显著影响。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文