标签

强化学习

Q-chunking——带有动作分块的强化学习：基于人类演示，进行一定的连贯探索(且可做到无偏的n步价值回溯)

UC伯克利提出Q-chunking方法，通过动作分块改进离线到在线强化学习。该方法在动作序列层面运行RL策略，预测并执行未来h步动作，利用时序差分训练评估器进行无偏的n步价值回传。研究显示，这种方法能加速价值传播、保持无偏估计，同时通过行为约束利用离线数据中的时序连贯动作序列，有效缓解探索难题。相比分层RL，Q-chunking简化了优化过程，在保持探索优势的同时提升了样本效率。相关代码和论...

长沙具身团队在过去一个多月内迅速发展，完成了机械臂和人形机器人的研发任务，包括VR遥控机械臂、物体抓取和舞蹈等。团队通过离线数据和强化学习方法，显著提升了机器人自主执行任务的能力。

VR遥控人形机器人强化学习机械臂长沙

原文中文，约7700字，阅读约需19分钟。发表于：。

阅读原文

分享给好友

打造全球首个强化学习云平台，九章云极是如何做到的？

云强化学习

发表于：。

阅读原文

分享给好友

控制成本降低150%，用于微型反应堆的强化学习模型

强化学习

发表于：。

阅读原文

分享给好友

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

多智能体大模型强化学习

发表于：。

阅读原文

分享给好友

90%导航成功率+泛化率，ETH的新强化学习方法使微型机器人在血管里不再迷路

eth 强化学习机器人

发表于：。

阅读原文

分享给好友

大语言模型高考数学拿高分靠强化学习，那文科考高分得靠什么？

上次分析了大语言模型在高考数学考试中拿高分靠的是强化学习，也就是在后训练阶段，自己训练自己做有标准答案的数学题或者编程题，反复的自己刷题，做完题目对答案，答案做对了就有奖励，做错了就有惩罚，最终自己训练自己越练越牛。但是文科这样做行不通，因为文科很多题目没有标准答案，它就没有办法用文科题目自己训练自己，做强化学习。

大语言模型在高考文科中取得高分的原因包括优质训练数据、思维链推理、长上下文处理和多模态能力，这些因素提升了模型对复杂问题的理解和回答能力。

优质训练数据多模态能力大语言模型强化学习思维链推理高考

原文中文，约1800字，阅读约需5分钟。发表于：。

阅读原文

分享给好友

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

开源强化学习

发表于：。

阅读原文

分享给好友

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

入门强化学习推理模型

发表于：。

阅读原文

分享给好友

基于 LLamaFactory 和 EasyR1 打造一站式无代码大模型强化学习和部署平台 LLM Model Hub

大语言模型（Large Language Models, LLMs）在近几年经历了前所未有的发展。之前我们已经推出过《基于 Amazon SageMaker 和 LLaMA-Factory 打造一站式无代码模型微调部署平台 Model Hub》，文中主要介绍了如何使用这一平台利用 Amazon Sagemaker AI 的动态算力资源进行高效的监督微调（Supervised...

大语言模型（LLMs）近年来发展迅速，但在微调和部署方面面临挑战。GRPO算法通过群组相对优势估计，解决了传统强化学习的内存和稳定性问题，提高了训练效率。EasyR1框架支持多种算法，优化大模型的训练，并结合Amazon SageMaker实现高效灵活的训练和部署。

Amazon SageMaker EasyR1框架 GRPO算法 llm model 大模型大语言模型强化学习无代码训练效率

基于 LLamaFactory 和 EasyR1 打造一站式无代码大模型强化学习和部署平台 LLM Model Hub

原文中文，约22400字，阅读约需54分钟。发表于：。

阅读原文

分享给好友

「Next-Token」范式改变！刚刚，强化学习预训练来了

强化学习

发表于：。

阅读原文

分享给好友