本研究探讨了强化学习代理在未知状态下的挑战,提出了一种新方法——逐渐认知增长的情节马尔可夫决策过程(EMDP-GA)。该方法通过非信息化的价值扩展(NIVE)帮助代理初始化价值函数,从而有效适应并发现新状态。
完成下面两步后,将自动完成登录并继续当前操作。