结构之法算法之道 ·

RLT——VLA引导的在线RL：极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调，最终从粗到细搞定拧螺丝和充电器插入

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

本文讨论了一种轻量级的在线强化学习方法，用于微调视觉-语言-动作模型。研究者通过引入“RL token”提高样本效率，使得模型能够快速适应真实世界任务。该方法结合冻结的VLA和小型actor-critic网络，优化关键任务阶段的表现，旨在实现高效的在线微调，同时保持泛化能力。

🎯

❓

RL token是一种紧凑的读出表征，能够保留与任务相关的预训练知识，并作为在线强化学习的高效接口。

该方法通过引入RL token，提高了样本效率，使得模型能够在短时间内快速适应真实世界任务。

VLA模型在执行精确任务时，往往在最后阶段表现不佳，容易出现小错误导致失败。

通过结合冻结的VLA和小型actor-critic网络，利用RL token进行在线强化学习，从而实现高效微调。

通过在已有的潜在有效行为基础上进行细化，而不是从零开始学习，从而保持VLA的泛化能力。

目标是实现高效的在线微调，同时保持VLA的泛化能力，以适应真实世界的任务需求。

🏷️

语音增强中的自监督学习：从无配对训练到基础模型先验
语音增强（SE）面临数据、目标和任务等挑战，自监督学习（SSL）逐渐成为解决方案。SSL通过未配对数据学习和生成式方法，重塑了SE的训练目标。研究表明，S...
微软新模型MAI-Code-1-Flash：比Claude Haiku强还省60%Token
微软新发布的MAI-Code-1-Flash编程模型专注于代码生成，声称能比Claude Haiku节省60%的Token。该模型适合简单任务，执行效率高...
家用路由器也能跑的展示业务动作到 SQL/Audit Trace 的小演示
TeaQL Robot Task Board 是一个开源项目，包含应用程序、生成库和 teaql-rs 运行时。Docker 镜像仅 2.54MB，运行时...
Codex大部分账号已经无需绑定或验证手机号但仍有部分账号还需验证
OpenAI 最近解除大部分 Codex 账号的手机号码验证，用户可直接登录。此举引发争议，部分用户仍需验证。客户支持反应缓慢，未能明确解释验证原因。Ch...
SwitchBot收购Nanoleaf不仅仅是为了照明
Nanoleaf被SwitchBot母公司OneRobotics收购，CEO表示公司将保持独立运营，并计划进行产品整合。此次收购将为Nanoleaf提供资...
五篇清晰解释大型语言模型的有趣论文
本文介绍了五篇关于大型语言模型（LLMs）的重要论文，涵盖其核心概念和技术。首先是“Attention Is All You Need”，提出了Trans...