本研究提出了一种风险约束的强化学习方法RiskRL,旨在解决机器人在高成本观察情况下的定位频率选择问题。实验结果表明,RiskRL策略的性能优于基线方法至少13%,并且能够适应未见环境。
完成下面两步后,将自动完成登录并继续当前操作。