小红花·文摘

本研究探讨生物奖励学习中的信用分配，重点分析多巴胺如何编码时间差误差以学习价值预测。提出的新深度Q学习算法“人工多巴胺”在多个测试平台上表现出与反向传播算法相当的性能。