小红花·文摘

本文提出了一种新的Mean Actor-Critic（MAC）算法，旨在优化离散动作连续状态的强化学习。该算法通过显式表示所有动作值来减少策略梯度估计的方差，并在多个控制领域和Atari游戏中表现出竞争力。此外，研究探讨了Actor-Critic算法的全局收敛性和最优性，提出了改进的性能界限，并在交通信号控制等应用中展示了其实用性。