该研究提出了一种新的强化学习算法S-REINFORCE,利用神经网络和符号回归器生成可解释的策略。实验结果表明该算法在低维度和高维度决策空间上都具有高效性和影响力,适用于透明度和因果关系重要的实际应用。
完成下面两步后,将自动完成登录并继续当前操作。