标签

 强化学习 

相关的文章:

本列表汇集了最新的强化学习研究成果,涵盖微型机器人导航、大模型训练框架及多智能体系统等前沿话题,助您深入了解强化学习的应用与发展。

Q-chunking——带有动作分块的强化学习:基于人类演示,进行一定的连贯探索(且可做到无偏的n步价值回溯)

UC伯克利提出Q-chunking方法,通过动作分块改进离线到在线强化学习。该方法在动作序列层面运行RL策略,预测并执行未来h步动作,利用时序差分训练评估器进行无偏的n步价值回传。研究显示,这种方法能加速价值传播、保持无偏估计,同时通过行为约束利用离线数据中的时序连贯动作序列,有效缓解探索难题。相比分层RL,Q-chunking简化了优化过程,在保持探索优势的同时提升了样本效率。相关代码和论...

长沙具身团队在过去一个多月内迅速发展,完成了机械臂和人形机器人的研发任务,包括VR遥控机械臂、物体抓取和舞蹈等。团队通过离线数据和强化学习方法,显著提升了机器人自主执行任务的能力。

原文中文,约7700字,阅读约需19分钟。发表于:
阅读原文
发表于:
阅读原文
发表于:
阅读原文
发表于:
阅读原文
发表于:
阅读原文

大语言模型高考数学拿高分靠强化学习,那文科考高分得靠什么?

上次分析了大语言模型在高考数学考试中拿高分靠的是强化学习,也就是在后训练阶段,自己训练自己做有标准答案的数学题或者编程题,反复的自己刷题,做完题目对答案,答案做对了就有奖励,做错了就有惩罚,最终自己训练自己越练越牛。但是文科这样做行不通,因为文科很多题目没有标准答案,它就没有办法用文科题目自己训练自己,做强化学习。

大语言模型在高考文科中取得高分的原因包括优质训练数据、思维链推理、长上下文处理和多模态能力,这些因素提升了模型对复杂问题的理解和回答能力。

大语言模型高考数学拿高分靠强化学习,那文科考高分得靠什么?
原文中文,约1800字,阅读约需5分钟。发表于:
阅读原文
发表于:
阅读原文
发表于:
阅读原文

基于 LLamaFactory 和 EasyR1 打造一站式无代码大模型强化学习和部署平台 LLM Model Hub

大语言模型(Large Language Models, LLMs)在近几年经历了前所未有的发展。之前我们已经推出过《基于 Amazon SageMaker 和 LLaMA-Factory 打造一站式无代码模型微调部署平台 Model Hub》,文中主要介绍了如何使用这一平台利用 Amazon Sagemaker AI 的动态算力资源进行高效的监督微调(Supervised...

大语言模型(LLMs)近年来发展迅速,但在微调和部署方面面临挑战。GRPO算法通过群组相对优势估计,解决了传统强化学习的内存和稳定性问题,提高了训练效率。EasyR1框架支持多种算法,优化大模型的训练,并结合Amazon SageMaker实现高效灵活的训练和部署。

基于 LLamaFactory 和 EasyR1 打造一站式无代码大模型强化学习和部署平台 LLM Model Hub
原文中文,约22400字,阅读约需54分钟。发表于:
阅读原文
发表于:
阅读原文