标签
强化学习
相关的文章:本列表汇集了最新的强化学习研究成果,涵盖价值对齐、策略优化及应用实例,展示了该领域的前沿进展与创新思路。
基于 LLamaFactory 和 EasyR1 打造一站式无代码大模型强化学习和部署平台 LLM Model Hub
大语言模型(Large Language Models, LLMs)在近几年经历了前所未有的发展。之前我们已经推出过《基于 Amazon SageMaker 和 LLaMA-Factory 打造一站式无代码模型微调部署平台 Model Hub》,文中主要介绍了如何使用这一平台利用 Amazon Sagemaker AI 的动态算力资源进行高效的监督微调(Supervised...
大语言模型(LLMs)近年来发展迅速,但在微调和部署方面面临挑战。GRPO算法通过群组相对优势估计,解决了传统强化学习的内存和稳定性问题,提高了训练效率。EasyR1框架支持多种算法,优化大模型的训练,并结合Amazon SageMaker实现高效灵活的训练和部署。

原文中文,约22400字,阅读约需54分钟。发表于:
。
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
原文中文,约3000字,阅读约需8分钟。发表于:
。
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
原文中文,约3800字,阅读约需9分钟。发表于:
。
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊
原文中文,约3200字,阅读约需8分钟。发表于:
。