小红花·文摘

RLT——VLA引导的在线RL：极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调，最终从粗到细搞定拧螺丝和充电器插入

结构之法算法之道 ·

真·养虾！3步让龙虾边聊边进化，不用GPU不用数据集就能强化学习

量子位 ·

$πRL——首个在线RL微调流式VLA π0/π0.5的框架：通过Flow-Noise和Flow-SDE实现精确对数似然估计，全面提升性能$

πRL——首个在线RL微调流式VLA π0/π0.5的框架：通过Flow-Noise和Flow-SDE实现精确对数似然估计，全面提升性能

结构之法算法之道 ·

斯坦福团队的AgentFlow系统通过在线强化学习优化智能体，显著提升推理能力，超越GPT-4o等大型模型。该系统由四个专业智能体协作，实时优化决策，尤其在知识检索和智能体任务中提升超过14%，展示了模块化设计和动态学习的重要性。

AI在线强化学习“边做边学”，斯坦福团队让7B小模型性能飙升，甚至超越GPT-4o

量子位 ·

本文提出了一种结合离线强化学习与在线强化学习的方法WSRL（Warm-start RL），旨在解决微调过程中的灾难性遗忘问题。WSRL通过在在线微调初期收集少量数据，有效利用预训练知识，提升微调效率和性能，避免依赖大量离线数据。

WSRL——热启动的RL如何20分钟内控制机器人：先离线RL预训练，之后离线策略热身(模拟离线数据保留)，最后丢弃离线数据做在线RL微调

结构之法算法之道 ·

本研究探讨如何通过在线强化学习将大型语言模型（LLMs）与有效教育法对齐，提出的框架使LLMs成为有效的导师，提升教育质量，且无需人工注释，训练出的模型在教育效果上与更大规模模型相当。

从解决问题到教授解决问题：通过强化学习将大型语言模型与教育法对齐

BriefGPT - AI 论文速递 ·

本研究提出了一种新的在线强化学习框架RISE，旨在提升大型语言模型的自我验证能力和解题准确性，从而增强推理过程，推动智能推理系统的发展。

信任但要验证：一种具有可验证奖励的强化学习自我验证方法

BriefGPT - AI 论文速递 ·

本研究提出Flow-GRPO方法，首次将在线强化学习应用于流匹配模型，有效提升文本到图像任务的生成准确性和人类偏好对齐效果。

Flow-GRPO: Training Flow Matching Models through Online Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种在线强化学习框架，解决了图像编辑扩散模型在结构保持和用户提示语义对齐方面的挑战。该方法无需大量标注，能够在复杂场景中实现真实且一致的编辑，展现了在机器人仿真环境中的应用潜力。

图像编辑专家：基于RLAIF的方法用于扩散模型

BriefGPT - AI 论文速递 ·

DeepSeek与清华大学合作发布新论文，提出SPCT方法，通过在线强化学习优化奖励模型，解决通用领域的灵活性和准确性问题。同时，奥特曼宣布GPT-5将在几个月后发布，效果超出预期。

DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

量子位 ·

本研究提出了一种基于视频数据的价值函数，旨在解决在线强化学习中稀疏奖励导致的反馈不足问题。该方法利用多样的数据源，展现出良好的迁移效果和泛化能力，有望提升在线强化学习的效果与效率。

ViVa: Video-Trained Value Functions for Guiding Online Reinforcement Learning from Diverse Data

BriefGPT - AI 论文速递 ·

从多模态大型语言模型到通用具身代理：方法与经验教训

Apple Machine Learning Research ·

本研究提出了一种基于在线强化学习的动态权重调整机制，解决实时策略任务评估中的适应性问题，显著提升评估函数在规划算法中的效果，尤其在大地图下计算时间增长控制在6%以内。

Dynamic Adaptive Evaluation Function for Real-Time Strategy Tasks Based on Online Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究探讨了多模态大型语言模型在传统语言和视觉任务之外的应用，提出了一种将其转化为通用具身智能体的方法。研究表明，跨域数据和在线强化学习对构建通用智能体至关重要，最终模型在新任务上展现出强大的泛化能力。

From Multimodal Large Language Models to Generalist Embodied Agents: Methods and Experiences

BriefGPT - AI 论文速递 ·

本研究提出了一种无悔的在线强化学习算法，旨在为安全关键系统在未知动态环境中合成控制器。该算法能够有效评估学习过程中接近最佳行为的程度，显著提升基于线性时序逻辑（LTL）规范的任务学习性能与效率。

Regret-Free Reinforcement Learning for LTL Specifications

BriefGPT - AI 论文速递 ·

本研究探讨了在线强化学习中如何在学习未知环境的同时满足安全约束，提出了针对受约束线性二次调节器的后悔界限，表明安全性提升了探索机会。

Stronger Safety Regret Bounds in Online Reinforcement Learning: A Case Study of Linear Quadratic Regulators

BriefGPT - AI 论文速递 ·

本研究解决了文本到图像生成模型与人类偏好对齐的问题。通过在线强化学习和新颖的散度正则化方法，Diff-Instruct*显著提升了生成图像的真实感和美观度，超越了之前的领先模型。

Diff-Instruct*: 迈向人类偏好的单步文本到图像生成模型

BriefGPT - AI 论文速递 ·

本论文介绍了一种基于在线强化学习的细粒度反馈方法（RLFH），用于减轻大型语言模型在生成过程中的幻觉行为。实验结果显示，RLFH可以平衡大型语言模型在生成过程中使用内部知识的程度，从而消除幻觉行为。

基于策略的细粒度知识反馈用于幻觉缓解

BriefGPT - AI 论文速递 ·

本文提出了一种新的在线强化学习方法，通过使用多样的过去轨迹作为指导，使得算法更快、更高效。实验结果表明，该方法在多样化探索和避免局部最优方面优于基准方法。

使用软自我生成指导学习多样化策略

BriefGPT - AI 论文速递 ·