本研究探讨生物奖励学习中的信用分配,重点分析多巴胺如何编码时间差误差以学习价值预测。提出的新深度Q学习算法“人工多巴胺”在多个测试平台上表现出与反向传播算法相当的性能。
完成下面两步后,将自动完成登录并继续当前操作。