以奖励为中心的ReST-MCTS:高不确定环境下机器人操作的稳健决策框架

📝

内容提要

本研究针对传统蒙特卡罗树搜索在高不确定性和噪声数据环境中的决策不足问题,提出了一种新颖的奖励中心ReST-MCTS框架,通过引入中间奖励塑造来增强搜索效率。实验结果表明,该方法在机器人操作任务中相比传统方法提高了2-4%的决策准确性,且在不同不确定性水平下表现出良好的稳健性。

🏷️

标签

➡️

继续阅读