标签
强化学习
相关的文章:本列表汇集了最新的强化学习研究成果,涵盖价值对齐、策略优化及应用实例,展示了该领域的前沿进展与创新思路。
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊
Prime Intellect发布INTELLECT-2:一款通过去中心化强化学习训练的32亿参数模型
Prime Intellect has released INTELLECT-2, a 32 billion parameter language model trained using fully asynchronous reinforcement learning across a decentralized network of compute contributors....
Prime Intellect发布了基于去中心化网络的32亿参数语言模型INTELLECT-2,采用完全异步强化学习。该模型使用PRIME-RL框架,分离生成、更新和广播任务,通过SHARDCAST分发模型权重,并通过TOPLOC验证推理结果。INTELLECT-2在285,000个数学和编程任务上训练,表现优于前代模型。未来计划包括提升推理与训练的计算比率及整合更多工具。

ViaRL:通过视觉迭代放大强化学习进行自适应时间定位
从解决问题到教授解决问题:通过强化学习将大型语言模型与教育法对齐
本研究解决了大型语言模型(LLMs)在教育中应用中的一个关键问题,即其为直接问答优化而忽视了有效教育法需要战略性保留答案的需求。我们提出了一种基于在线强化学习的对齐框架,能够迅速将LLMs转变为有效的导师,通过强化教育质量和指导性问题解决,且在无需人工注释的情况下训练出的7B参数导师模型,表现与更大规模的专有模型相当,具有显著的教育影响。
本研究提出了一种在线强化学习框架,旨在解决大型语言模型在教育中忽视有效教学法的问题。该框架能够迅速将模型转变为有效的导师,训练出的7B参数模型在教育质量和指导性问题解决方面表现优异,产生了显著影响。