小红花·文摘

本文探讨了在动态可观测领域中识别确定性动作效果的算法，提出了一种基于MAX-SAT框架的自动学习规划系统模型。研究表明，该方法在多模式推动问题上有效，并在离散和连续动作空间的模型控制任务中表现优越。通过主动学习策略和高斯过程模型，提升了状态操作空间的准确性，并在安全控制方面提供了高概率保证。