RL-100——基于真实世界RL的高性能灵巧操作：先基于人类演示做模仿学习预训练，再做迭代式离线RL，最后真机在线RL

💡 原文中文，约16500字，阅读约需40分钟。

📝

内容提要

本文介绍了RL-100，一个结合模仿学习与强化学习的机器人学习框架。该框架通过模仿学习、离线强化学习和在线微调三个阶段提升机器人操作能力，旨在提高机器人在真实环境中的可靠性和效率，支持多种控制方式，并通过一致性蒸馏技术实现高频控制，以满足工业应用需求。

🎯

❓

RL-100框架旨在提高机器人在真实环境中的可靠性和效率。

RL-100通过模仿学习、离线强化学习和在线微调三个阶段提升机器人操作能力。

RL-100支持单步动作控制和动作分块控制。

一致性蒸馏技术用于实现高频控制，以满足工业应用的时延要求。

RL-100采用统一的、类似PPO的目标函数，将模仿学习和强化学习进行整合。

RL-100与任务、本体和表示无关，能够在基于视觉的场景中运行，适应不同的输入形式。

🏷️

语音增强中的自监督学习：从无配对训练到基础模型先验
语音增强（SE）面临数据、目标和任务等挑战，自监督学习（SSL）逐渐成为解决方案。SSL通过未配对数据学习和生成式方法，重塑了SE的训练目标。研究表明，S...
Frontier Tuning：教AI像您一样工作
微软在Build大会上推出了Frontier Tuning，这是一种通过强化学习使AI适应企业数据和流程的新方法。该系统在合规边界内运行，能够根据企业的独...
橡木果发布“本能驱动”技术路线，开辟自下而上具身智能新范式
橡木果机器人公司采用自下而上的方法，通过与物理世界的互动使机器人自主学习。其核心模型Natus实现零数据冷启动，具备毫秒级响应能力，适应不同硬件。Magi...
App+1 | 零基础 3 分钟在线搞定产品演示视频：Mockup Studio
Mockup Studio 是一个在线工具，用户可以快速制作产品展示视频，只需拖入录屏并调整样式即可导出成品。该工具简化了视频制作流程，适合开发者和产品经...
家用路由器也能跑的展示业务动作到 SQL/Audit Trace 的小演示
TeaQL Robot Task Board 是一个开源项目，包含应用程序、生成库和 teaql-rs 运行时。Docker 镜像仅 2.54MB，运行时...
Article: Two Misconfigurations That Caused Spark OOM Failures on Kubernetes
After migrating Spark pipelines to Azure Kubernetes Service, two infrastructu...