标签

 强化学习 

相关的文章:

本列表汇集了最新的强化学习研究成果,涵盖价值对齐、策略优化及应用实例,展示了该领域的前沿进展与创新思路。

发表于:
阅读原文
发表于:
阅读原文

基于 LLamaFactory 和 EasyR1 打造一站式无代码大模型强化学习和部署平台 LLM Model Hub

大语言模型(Large Language Models, LLMs)在近几年经历了前所未有的发展。之前我们已经推出过《基于 Amazon SageMaker 和 LLaMA-Factory 打造一站式无代码模型微调部署平台 Model Hub》,文中主要介绍了如何使用这一平台利用 Amazon Sagemaker AI 的动态算力资源进行高效的监督微调(Supervised...

大语言模型(LLMs)近年来发展迅速,但在微调和部署方面面临挑战。GRPO算法通过群组相对优势估计,解决了传统强化学习的内存和稳定性问题,提高了训练效率。EasyR1框架支持多种算法,优化大模型的训练,并结合Amazon SageMaker实现高效灵活的训练和部署。

基于 LLamaFactory 和 EasyR1 打造一站式无代码大模型强化学习和部署平台 LLM Model Hub
原文中文,约22400字,阅读约需54分钟。发表于:
阅读原文
发表于:
阅读原文
发表于:
阅读原文

Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

超越二八法则

Qwen与清华团队的研究表明,在大模型强化学习中,仅使用20%的高熵token即可显著提升训练效果,优于使用全部token。这一发现挑战了传统的二八法则,指出低熵token对推理贡献有限,可能限制模型的探索能力。聚焦关键token使模型在泛化能力上表现出色,训练过程中的熵模式演变也强调了高熵token的重要性。

原文中文,约3000字,阅读约需8分钟。发表于:
阅读原文
发表于:
阅读原文

首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

西北大学与谷歌合作提出贝叶斯自适应强化学习(BARL),首次阐释了大型语言模型(LLM)如何有效进行反思与探索新策略。研究表明,BARL在数学推理任务中表现优异,能够更高效地利用信息,避免无效反思,从而提升模型的决策能力。

原文中文,约3800字,阅读约需9分钟。发表于:
阅读原文
发表于:
阅读原文
原文中文,约3200字,阅读约需8分钟。发表于:
阅读原文