主动推理和部分可观测马尔可夫决策过程中的信息价值和奖励规范化
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本研究通过将期望自由能(EFE)与信念马尔可夫决策过程结合,揭示了EFE如何近似贝叶斯最优强化学习策略,为主动推理代理的目标设置提供了新的视角。研究发现该方法有助于更好地理解和规范主动推理中的信息和奖励设计。
🏷️