小红花·文摘

本文探讨了逆强化学习（IRL）的多种方法，包括无监督学习、奖励重塑和基于梯度的算法，旨在从专家示范中恢复奖励函数。研究表明，这些方法在样本利用率和算法效率上有显著提升，能够有效解决奖励函数推断问题，并在多个控制任务中取得良好效果。

BriefGPT - AI 论文速递 ·

该论文提出了一种鲁棒安全强化学习框架，旨在解决真实控制任务中的安全性问题。通过构建鲁棒不变集合和约束强化学习算法，优化策略并提高学习效率。研究表明，该框架在多种机器人环境中显著减少安全违规，表现出优越性。

BriefGPT - AI 论文速递 ·

通过27小时行走数据训练全尺寸仿人机器人，在旧金山自由行走。研究将仿人控制视为标记预测问题，通过传感器运动轨迹的自回归预测训练模型。结果表明，模型能在现实世界中泛化，并执行未见过的指令。研究为学习真实世界控制任务提供了前景广阔的道路。

极道 ·