小红花·文摘

本研究提出了一种双重最小二乘深度确定性策略梯度（DLS-DDPG）方法，以解决现有LS-DQN在连续动作中的局限性。通过在MuJoCo环境中的实验，验证了线性回归更新在某些任务中的性能提升，但正则化项的问题仍需进一步解决。