标签

 强化学习 

相关的文章:

本列表汇集了最新的强化学习研究成果,涵盖微型机器人导航、大模型训练框架及多智能体系统等前沿话题,助您深入了解强化学习的应用与发展。

发表于:
阅读原文
发表于:
阅读原文
发表于:
阅读原文

大语言模型高考数学拿高分靠强化学习,那文科考高分得靠什么?

上次分析了大语言模型在高考数学考试中拿高分靠的是强化学习,也就是在后训练阶段,自己训练自己做有标准答案的数学题或者编程题,反复的自己刷题,做完题目对答案,答案做对了就有奖励,做错了就有惩罚,最终自己训练自己越练越牛。但是文科这样做行不通,因为文科很多题目没有标准答案,它就没有办法用文科题目自己训练自己,做强化学习。

大语言模型在高考文科中取得高分的原因包括优质训练数据、思维链推理、长上下文处理和多模态能力,这些因素提升了模型对复杂问题的理解和回答能力。

大语言模型高考数学拿高分靠强化学习,那文科考高分得靠什么?
原文中文,约1800字,阅读约需5分钟。发表于:
阅读原文
发表于:
阅读原文
发表于:
阅读原文

基于 LLamaFactory 和 EasyR1 打造一站式无代码大模型强化学习和部署平台 LLM Model Hub

大语言模型(Large Language Models, LLMs)在近几年经历了前所未有的发展。之前我们已经推出过《基于 Amazon SageMaker 和 LLaMA-Factory 打造一站式无代码模型微调部署平台 Model Hub》,文中主要介绍了如何使用这一平台利用 Amazon Sagemaker AI 的动态算力资源进行高效的监督微调(Supervised...

大语言模型(LLMs)近年来发展迅速,但在微调和部署方面面临挑战。GRPO算法通过群组相对优势估计,解决了传统强化学习的内存和稳定性问题,提高了训练效率。EasyR1框架支持多种算法,优化大模型的训练,并结合Amazon SageMaker实现高效灵活的训练和部署。

基于 LLamaFactory 和 EasyR1 打造一站式无代码大模型强化学习和部署平台 LLM Model Hub
原文中文,约22400字,阅读约需54分钟。发表于:
阅读原文
发表于:
阅读原文
发表于:
阅读原文

Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

超越二八法则

Qwen与清华团队的研究表明,在大模型强化学习中,仅使用20%的高熵token即可显著提升训练效果,优于使用全部token。这一发现挑战了传统的二八法则,指出低熵token对推理贡献有限,可能限制模型的探索能力。聚焦关键token使模型在泛化能力上表现出色,训练过程中的熵模式演变也强调了高熵token的重要性。

原文中文,约3000字,阅读约需8分钟。发表于:
阅读原文