小红花·文摘

本文介绍了一种新颖的基于模型的强化学习算法M2AC，该算法通过掩码机制根据模型可信度选择预测，显著提升了连续控制任务的性能。同时，研究了模型在策略优化中的作用，并提出了改进的样本效率方法，展示了在不确定环境下的应用潜力。