小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种新颖的离线算法，利用范德瓦尔斯力和功能奖励编码，显著提高机器人任务中的学习效率和稳定性，同时增强了多样性和处理非平稳奖励的能力。

双重力量：在模仿约束下增强离线多样性最大化

BriefGPT - AI 论文速递 ·

区间子串询问

区间子串询问

某岛 ·

本研究通过引入基于策略的内在奖励函数，解决了强化学习中的探索问题，提高了探索效率，并提出了一种新的离线最大熵强化学习算法。

基于未来状态和动作访问度量的离线最大熵强化学习

BriefGPT - AI 论文速递 ·