小红花·文摘

该论文研究了深度强化学习代理的行为模式，分析了离散动作空间和探索选择对训练表现的影响。结果显示，在检查任务中有限选择表现最佳，而在停靠任务中连续控制效果更佳。此外，提出了多层次策略学习和基于潜在空间的强化学习算法，显著提高了样本效率和任务转移能力。