小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
RLT——VLA引导的在线RL:极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调,最终从粗到细搞定拧螺丝和充电器插入

本文讨论了一种轻量级的在线强化学习方法,用于微调视觉-语言-动作模型。研究者通过引入“RL token”提高样本效率,使得模型能够快速适应真实世界任务。该方法结合冻结的VLA和小型actor-critic网络,优化关键任务阶段的表现,旨在实现高效的在线微调,同时保持泛化能力。

RLT——VLA引导的在线RL:极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调,最终从粗到细搞定拧螺丝和充电器插入

结构之法 算法之道
结构之法 算法之道 · 2026-03-26T03:44:34Z

本文介绍了一种结合强化学习与视觉-语言-动作模型的微调方法ConRFT,旨在提升机器人任务的样本效率和安全性。ConRFT通过离线和在线两个阶段,利用人类示范数据和一致性策略,解决了传统方法在真实环境中的挑战,增强了智能机械臂的精准性和泛化能力。

ConRFT——Consistency Policy下RL微调VLA的方法:离线通过演示数据微调(结合Q损失和BC损失),后在线RL微调,且引入人工干预

结构之法 算法之道
结构之法 算法之道 · 2025-09-09T16:32:23Z

本文探讨了现实世界机器人强化学习的挑战与解决方案,介绍了开源框架SERL,旨在提高样本效率并支持多任务。SERL结合高效算法RLPD,提供奖励函数设计和自动重置机制,促进机器人学习的应用。

SERL——针对真机高效采样的RL系统:基于图像观测和RLPD算法等,开启少量演示下的RL精密插拔之路(含插入基准FMB的详解)

结构之法 算法之道
结构之法 算法之道 · 2025-09-01T04:39:10Z

本文介绍了RLPD和RLDG两种强化学习方法,强调利用离线数据提升在线学习效率。RLPD通过对称采样结合离线数据,提高样本效率,有效解决高维状态和稀疏奖励问题。研究表明,合理设计采样和归一化策略能显著改善学习性能。

RLPD——利用离线数据实现高效的在线RL:不进行离线RL预训练,直接应用离策略方法SAC,在线学习时对称采样离线数据

结构之法 算法之道
结构之法 算法之道 · 2025-08-30T15:33:16Z
目标混凝土评分匹配:离散扩散的整体框架

离散扩散是一种有效的离散数据建模与生成框架。本文提出目标混凝土评分匹配(TCSM),作为训练和微调离散扩散模型的新目标。TCSM支持从数据样本进行预训练,并可结合奖励函数或偏好数据进行后期训练。实验结果表明,TCSM在语言建模任务中表现优异,具备灵活性和样本效率。

目标混凝土评分匹配:离散扩散的整体框架

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-11T00:00:00Z

本研究提出了一种两阶段训练策略,通过预热和强化学习,解决了大型语言模型在高质量训练数据稀缺情况下的推理能力问题,显著提升了模型的推理能力和样本效率。

Pre-training Warm-up: Unlocking General Reasoning in Resource-Limited Environments

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究提出了NCDPO框架,旨在解决扩散策略在决策场景中因示范数据的亚最优和有限覆盖导致的次优轨迹生成问题。通过将扩散策略重构为噪声条件下的确定性策略,实现了可追踪的似然评估和梯度反向传播,显著提高了样本效率,并在多项基准测试中优于现有方法。

Fine-tuning Diffusion Policies through Backpropagation via Diffusion Timesteps

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本文提出了一种新方法IN-RIL,旨在解决模仿学习与强化学习结合中的不稳定性和样本效率低下的问题。通过定期注入模仿学习更新,IN-RIL提高了探索效率,实验结果表明其在多任务中显著提升了样本效率,并减少了性能崩溃现象。

IN-RIL:用于策略微调的交替强化学习与模仿学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本文提出了一种生成式端到端求解器,针对黑箱组合优化问题,旨在提高样本效率和解的质量。该方法基于退火算法,训练神经网络以建模玻尔兹曼分布,并在有限和无限查询预算下验证其在组合任务中的表现。

A Generative Neural Annealer for Black-Box Combinatorial Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z

本研究提出了一种新的离散时间高斯过程混合模型(MiDiGap),用于机器人策略学习。该模型仅需五个演示和摄像头观察即可快速学习,在多项复杂任务中表现出色,显著提高了策略成功率和样本效率,具有重要的实用价值。

The Unreasonable Effectiveness of Discrete-Time Gaussian Process Mixtures in Robot Policy Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

本研究提出了一种基于空因果的交互定义,结合交互与后见重标定(HInt),显著提升了动态机器人环境中目标条件强化学习的样本效率,最高可达4倍。

Causal Factor Interaction in Goal-Conditioned Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

本研究提出了一种新方法,解决了离散因素化行动空间中组合行动集大的挑战。通过对Q函数的降维投影分析,确保了Q函数的无偏性,并引入了行动分解的强化学习框架,显著提升了样本效率。

具有干预语义的Q函数分解与因素化行动空间

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-30T00:00:00Z

本文提出了一种通过设定轨迹总回报上限来优化条件风险价值(CVaR)的方法,旨在解决现有策略梯度方法中因大量丢弃轨迹而导致的样本效率低下问题。实验结果表明,该方法在多个环境中显著提升了性能。

回报上限:样本高效的条件风险价值策略梯度优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-29T00:00:00Z

本研究提出了一种新颖的模型内部置信度估计器(MICE),用于校准工具使用代理的置信度。MICE通过解码语言模型的中间层来评估置信度,显著提高了工具调用的效率和置信度,具备高样本效率和零次泛化能力,适用于不同风险场景。

MICE: 用于校准工具代理的模型内部置信度估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z

本研究提出了一种名为“代码作为生成性拟态(CoGA)”的方法,旨在提高强化学习代理在稀疏奖励和大行动空间环境中的样本效率。通过利用预训练的视觉-语言模型生成代码,CoGA限制了代理的行动空间,从而提升学习效率。研究结果表明,CoGA在多个任务上表现出更高的样本效率。

Cracking the Code of Action: A Generative Approach to Affordances for Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-24T00:00:00Z

本研究提出Kimina-Prover Preview,旨在提高传统形式定理证明的效率。该模型模仿人类解题策略,在miniF2F基准测试中表现达到80.7%,展现出良好的样本效率和可扩展性,具有在形式验证与非正式数学直觉之间架起桥梁的潜力。

Kimina-Prover Preview: Reinforcement Learning for Large Formal Reasoning Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z

本研究提出了一种新颖的架构,通过优先记忆模块在无监督下发现重要的长尾轨迹,解决了传统强化学习算法在处理Zipfian分布时的不足,从而提高样本效率并显著提升性能。该方法可集成至任意强化学习架构,优于传统方法。

Momentum-Enhanced Episodic Memory for Learning Improvement in Long-Tailed Reinforcement Learning Environments

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

本研究提出了一种基于ODE的增强采样方法RX-DPM,旨在降低扩散概率模型生成高质量样本的计算成本,同时显著提升样本估计精度和采样效率。

Enhanced Diffusion Sampling through Extrapolation of Multiple ODE Solutions

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

本研究提出了一种名为RIG的端到端通用政策,旨在提升嵌入式代理在复杂开放世界中的推理与想象能力。通过协同学习,RIG显著提高了样本效率和泛化能力,增强了政策的鲁棒性和互操作性。

RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-31T00:00:00Z

本研究提出了一种基于对抗数据增强的离线强化学习模型MORAL,旨在解决静态数据下策略开发的稳健性问题。实验结果表明,MORAL在政策学习和样本效率方面优于传统方法,具有广泛的适用性。

基于模型的离线强化学习与对抗数据增强

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-26T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码