小红花·文摘

MIT News - Artificial intelligence ·

本研究利用强化学习算法（PPO和RPO）控制微型机器人群在水力影响下到达目标，展示了课程学习提升性能的能力。研究了智能微型游泳机器人的自主适应行为与最优策略学习，并提出了基于SwarMDP框架的逆向强化学习算法，有效生成本地奖励模型。

BriefGPT - AI 论文速递 ·