基于最大熵的策略改进演员 - 评论家算法及熵优势估计

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

我们提出了一种新的最大熵强化学习框架EBFlow,集成了策略评估和策略改进步骤,支持多模态动作分布建模。实验结果显示,EBFlow在高维机器人任务上优于传统方法。

原文中文,约300字,阅读约需1分钟。
阅读原文