本文提出了一种新的Mean Actor-Critic(MAC)算法,旨在优化离散动作连续状态的强化学习。该算法通过显式表示所有动作值来减少策略梯度估计的方差,并在多个控制领域和Atari游戏中表现出竞争力。此外,研究探讨了Actor-Critic算法的全局收敛性和最优性,提出了改进的性能界限,并在交通信号控制等应用中展示了其实用性。
完成下面两步后,将自动完成登录并继续当前操作。