小红花·文摘

本研究探讨了强化学习代理在未知状态下的挑战，提出了一种新方法——逐渐认知增长的情节马尔可夫决策过程（EMDP-GA）。该方法通过非信息化的价值扩展（NIVE）帮助代理初始化价值函数，从而有效适应并发现新状态。