小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
RLT——VLA引导的在线RL:极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调,最终从粗到细搞定拧螺丝和充电器插入

本文讨论了一种轻量级的在线强化学习方法,用于微调视觉-语言-动作模型。研究者通过引入“RL token”提高样本效率,使得模型能够快速适应真实世界任务。该方法结合冻结的VLA和小型actor-critic网络,优化关键任务阶段的表现,旨在实现高效的在线微调,同时保持泛化能力。

RLT——VLA引导的在线RL:极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调,最终从粗到细搞定拧螺丝和充电器插入

结构之法 算法之道
结构之法 算法之道 · 2026-03-26T03:44:34Z
真·养虾!3步让龙虾边聊边进化,不用GPU不用数据集就能强化学习

MetaClaw通过在线强化学习系统,使AI在与用户对话中自动学习和进化,无需GPU和数据集。用户只需简单配置,AI即可实时优化表现并生成新技能,降低了持续学习的门槛。

真·养虾!3步让龙虾边聊边进化,不用GPU不用数据集就能强化学习

量子位
量子位 · 2026-03-12T05:14:14Z
πRL——首个在线RL微调流式VLA π0/π0.5的框架:通过Flow-Noise和Flow-SDE实现精确对数似然估计,全面提升性能

本文介绍了πRL框架,这是首个用于流式视觉-语言-动作模型的在线强化学习微调方法。通过结合流匹配与强化学习,πRL提升了模型的性能与泛化能力。研究者提出了Flow-Noise和Flow-SDE两种技术,增强了随机性探索,优化了训练过程,为复杂多任务机器人场景中的流式VLA微调提供了新思路。

πRL——首个在线RL微调流式VLA π0/π0.5的框架:通过Flow-Noise和Flow-SDE实现精确对数似然估计,全面提升性能

结构之法 算法之道
结构之法 算法之道 · 2025-11-10T05:08:11Z

斯坦福团队的AgentFlow系统通过在线强化学习优化智能体,显著提升推理能力,超越GPT-4o等大型模型。该系统由四个专业智能体协作,实时优化决策,尤其在知识检索和智能体任务中提升超过14%,展示了模块化设计和动态学习的重要性。

AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o

量子位
量子位 · 2025-10-24T04:16:56Z

本文提出了一种结合离线强化学习与在线强化学习的方法WSRL(Warm-start RL),旨在解决微调过程中的灾难性遗忘问题。WSRL通过在在线微调初期收集少量数据,有效利用预训练知识,提升微调效率和性能,避免依赖大量离线数据。

WSRL——热启动的RL如何20分钟内控制机器人:先离线RL预训练,之后离线策略热身(模拟离线数据保留),最后丢弃离线数据做在线RL微调

结构之法 算法之道
结构之法 算法之道 · 2025-07-06T15:23:58Z

本研究探讨如何通过在线强化学习将大型语言模型(LLMs)与有效教育法对齐,提出的框架使LLMs成为有效的导师,提升教育质量,且无需人工注释,训练出的模型在教育效果上与更大规模模型相当。

从解决问题到教授解决问题:通过强化学习将大型语言模型与教育法对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了一种新的在线强化学习框架RISE,旨在提升大型语言模型的自我验证能力和解题准确性,从而增强推理过程,推动智能推理系统的发展。

信任但要验证:一种具有可验证奖励的强化学习自我验证方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究提出Flow-GRPO方法,首次将在线强化学习应用于流匹配模型,有效提升文本到图像任务的生成准确性和人类偏好对齐效果。

Flow-GRPO: Training Flow Matching Models through Online Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究提出了一种在线强化学习框架,解决了图像编辑扩散模型在结构保持和用户提示语义对齐方面的挑战。该方法无需大量标注,能够在复杂场景中实现真实且一致的编辑,展现了在机器人仿真环境中的应用潜力。

图像编辑专家:基于RLAIF的方法用于扩散模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

DeepSeek与清华大学合作发布新论文,提出SPCT方法,通过在线强化学习优化奖励模型,解决通用领域的灵活性和准确性问题。同时,奥特曼宣布GPT-5将在几个月后发布,效果超出预期。

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

量子位
量子位 · 2025-04-05T05:02:37Z

本研究提出了一种基于视频数据的价值函数,旨在解决在线强化学习中稀疏奖励导致的反馈不足问题。该方法利用多样的数据源,展现出良好的迁移效果和泛化能力,有望提升在线强化学习的效果与效率。

ViVa: Video-Trained Value Functions for Guiding Online Reinforcement Learning from Diverse Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-23T00:00:00Z
从多模态大型语言模型到通用具身代理:方法与经验教训

本文探讨了多模态大型语言模型(MLLMs)在超越传统语言和视觉任务的能力,重点介绍了通用具身代理(GEA)的适应过程。GEA通过多具身动作标记器在不同领域自我定位,利用大规模具身经验数据集进行监督学习,并在交互式模拟器中进行在线强化学习。研究表明,跨领域数据和在线强化学习对构建通用代理至关重要,最终GEA模型在多项基准测试中表现优异,超越其他通用模型和特定基准方法。

从多模态大型语言模型到通用具身代理:方法与经验教训

Apple Machine Learning Research
Apple Machine Learning Research · 2025-02-19T00:00:00Z

本研究提出了一种基于在线强化学习的动态权重调整机制,解决实时策略任务评估中的适应性问题,显著提升评估函数在规划算法中的效果,尤其在大地图下计算时间增长控制在6%以内。

Dynamic Adaptive Evaluation Function for Real-Time Strategy Tasks Based on Online Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-07T00:00:00Z

本研究探讨了多模态大型语言模型在传统语言和视觉任务之外的应用,提出了一种将其转化为通用具身智能体的方法。研究表明,跨域数据和在线强化学习对构建通用智能体至关重要,最终模型在新任务上展现出强大的泛化能力。

From Multimodal Large Language Models to Generalist Embodied Agents: Methods and Experiences

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究提出了一种无悔的在线强化学习算法,旨在为安全关键系统在未知动态环境中合成控制器。该算法能够有效评估学习过程中接近最佳行为的程度,显著提升基于线性时序逻辑(LTL)规范的任务学习性能与效率。

Regret-Free Reinforcement Learning for LTL Specifications

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-18T00:00:00Z

本研究探讨了在线强化学习中如何在学习未知环境的同时满足安全约束,提出了针对受约束线性二次调节器的后悔界限,表明安全性提升了探索机会。

Stronger Safety Regret Bounds in Online Reinforcement Learning: A Case Study of Linear Quadratic Regulators

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本研究解决了文本到图像生成模型与人类偏好对齐的问题。通过在线强化学习和新颖的散度正则化方法,Diff-Instruct*显著提升了生成图像的真实感和美观度,超越了之前的领先模型。

Diff-Instruct*: 迈向人类偏好的单步文本到图像生成模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本论文介绍了一种基于在线强化学习的细粒度反馈方法(RLFH),用于减轻大型语言模型在生成过程中的幻觉行为。实验结果显示,RLFH可以平衡大型语言模型在生成过程中使用内部知识的程度,从而消除幻觉行为。

基于策略的细粒度知识反馈用于幻觉缓解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-18T00:00:00Z

本文提出了一种新的在线强化学习方法,通过使用多样的过去轨迹作为指导,使得算法更快、更高效。实验结果表明,该方法在多样化探索和避免局部最优方面优于基准方法。

使用软自我生成指导学习多样化策略

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码