小红花·文摘

RLT——VLA引导的在线RL：极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调，最终从粗到细搞定拧螺丝和充电器插入

结构之法算法之道 ·

本文介绍了一种结合强化学习与视觉-语言-动作模型的微调方法ConRFT，旨在提升机器人任务的样本效率和安全性。ConRFT通过离线和在线两个阶段，利用人类示范数据和一致性策略，解决了传统方法在真实环境中的挑战，增强了智能机械臂的精准性和泛化能力。

ConRFT——Consistency Policy下RL微调VLA的方法：离线通过演示数据微调(结合Q损失和BC损失)，后在线RL微调，且引入人工干预

结构之法算法之道 ·

本文探讨了现实世界机器人强化学习的挑战与解决方案，介绍了开源框架SERL，旨在提高样本效率并支持多任务。SERL结合高效算法RLPD，提供奖励函数设计和自动重置机制，促进机器人学习的应用。

SERL——针对真机高效采样的RL系统：基于图像观测和RLPD算法等，开启少量演示下的RL精密插拔之路(含插入基准FMB的详解)

结构之法算法之道 ·

本文介绍了RLPD和RLDG两种强化学习方法，强调利用离线数据提升在线学习效率。RLPD通过对称采样结合离线数据，提高样本效率，有效解决高维状态和稀疏奖励问题。研究表明，合理设计采样和归一化策略能显著改善学习性能。

RLPD——利用离线数据实现高效的在线RL：不进行离线RL预训练，直接应用离策略方法SAC，在线学习时对称采样离线数据

结构之法算法之道 ·

目标混凝土评分匹配：离散扩散的整体框架

Apple Machine Learning Research ·

本研究提出了一种两阶段训练策略，通过预热和强化学习，解决了大型语言模型在高质量训练数据稀缺情况下的推理能力问题，显著提升了模型的推理能力和样本效率。

Pre-training Warm-up: Unlocking General Reasoning in Resource-Limited Environments

BriefGPT - AI 论文速递 ·

本研究提出了NCDPO框架，旨在解决扩散策略在决策场景中因示范数据的亚最优和有限覆盖导致的次优轨迹生成问题。通过将扩散策略重构为噪声条件下的确定性策略，实现了可追踪的似然评估和梯度反向传播，显著提高了样本效率，并在多项基准测试中优于现有方法。

Fine-tuning Diffusion Policies through Backpropagation via Diffusion Timesteps

BriefGPT - AI 论文速递 ·

本文提出了一种新方法IN-RIL，旨在解决模仿学习与强化学习结合中的不稳定性和样本效率低下的问题。通过定期注入模仿学习更新，IN-RIL提高了探索效率，实验结果表明其在多任务中显著提升了样本效率，并减少了性能崩溃现象。

IN-RIL：用于策略微调的交替强化学习与模仿学习

BriefGPT - AI 论文速递 ·

本文提出了一种生成式端到端求解器，针对黑箱组合优化问题，旨在提高样本效率和解的质量。该方法基于退火算法，训练神经网络以建模玻尔兹曼分布，并在有限和无限查询预算下验证其在组合任务中的表现。

A Generative Neural Annealer for Black-Box Combinatorial Optimization

BriefGPT - AI 论文速递 ·

本研究提出了一种新的离散时间高斯过程混合模型（MiDiGap），用于机器人策略学习。该模型仅需五个演示和摄像头观察即可快速学习，在多项复杂任务中表现出色，显著提高了策略成功率和样本效率，具有重要的实用价值。

The Unreasonable Effectiveness of Discrete-Time Gaussian Process Mixtures in Robot Policy Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种基于空因果的交互定义，结合交互与后见重标定（HInt），显著提升了动态机器人环境中目标条件强化学习的样本效率，最高可达4倍。

Causal Factor Interaction in Goal-Conditioned Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，解决了离散因素化行动空间中组合行动集大的挑战。通过对Q函数的降维投影分析，确保了Q函数的无偏性，并引入了行动分解的强化学习框架，显著提升了样本效率。

具有干预语义的Q函数分解与因素化行动空间

BriefGPT - AI 论文速递 ·

本文提出了一种通过设定轨迹总回报上限来优化条件风险价值（CVaR）的方法，旨在解决现有策略梯度方法中因大量丢弃轨迹而导致的样本效率低下问题。实验结果表明，该方法在多个环境中显著提升了性能。

回报上限：样本高效的条件风险价值策略梯度优化

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的模型内部置信度估计器（MICE），用于校准工具使用代理的置信度。MICE通过解码语言模型的中间层来评估置信度，显著提高了工具调用的效率和置信度，具备高样本效率和零次泛化能力，适用于不同风险场景。

MICE: 用于校准工具代理的模型内部置信度估计

BriefGPT - AI 论文速递 ·

本研究提出了一种名为“代码作为生成性拟态（CoGA）”的方法，旨在提高强化学习代理在稀疏奖励和大行动空间环境中的样本效率。通过利用预训练的视觉-语言模型生成代码，CoGA限制了代理的行动空间，从而提升学习效率。研究结果表明，CoGA在多个任务上表现出更高的样本效率。

Cracking the Code of Action: A Generative Approach to Affordances for Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出Kimina-Prover Preview，旨在提高传统形式定理证明的效率。该模型模仿人类解题策略，在miniF2F基准测试中表现达到80.7%，展现出良好的样本效率和可扩展性，具有在形式验证与非正式数学直觉之间架起桥梁的潜力。

Kimina-Prover Preview: Reinforcement Learning for Large Formal Reasoning Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的架构，通过优先记忆模块在无监督下发现重要的长尾轨迹，解决了传统强化学习算法在处理Zipfian分布时的不足，从而提高样本效率并显著提升性能。该方法可集成至任意强化学习架构，优于传统方法。

Momentum-Enhanced Episodic Memory for Learning Improvement in Long-Tailed Reinforcement Learning Environments

BriefGPT - AI 论文速递 ·

本研究提出了一种基于ODE的增强采样方法RX-DPM，旨在降低扩散概率模型生成高质量样本的计算成本，同时显著提升样本估计精度和采样效率。

Enhanced Diffusion Sampling through Extrapolation of Multiple ODE Solutions

BriefGPT - AI 论文速递 ·

本研究提出了一种名为RIG的端到端通用政策，旨在提升嵌入式代理在复杂开放世界中的推理与想象能力。通过协同学习，RIG显著提高了样本效率和泛化能力，增强了政策的鲁棒性和互操作性。

RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy

BriefGPT - AI 论文速递 ·

本研究提出了一种基于对抗数据增强的离线强化学习模型MORAL，旨在解决静态数据下策略开发的稳健性问题。实验结果表明，MORAL在政策学习和样本效率方面优于传统方法，具有广泛的适用性。

基于模型的离线强化学习与对抗数据增强

BriefGPT - AI 论文速递 ·