小红花·文摘

本研究提出了一种自适应数据收集策略，通过RIDO算法动态调整轨迹长度，解决了蒙特卡洛强化学习中固定长度轨迹的局限性，减少估计误差。结果显示该策略在多个领域表现优异。