本研究提出观察约束马尔可夫决策过程(OCMDP),旨在解决高成本观察环境中的决策问题。通过无模型深度强化学习算法,分离观察与控制组件,有效降低观察成本。实验结果表明,该模型在模拟诊断和实际医疗中显著提高了效率。
完成下面两步后,将自动完成登录并继续当前操作。