本研究探讨了多目标马尔可夫决策过程中的期望收益向量实现问题,指出传统纯策略无法满足需求。提出通过混合有限纯策略来逼近任意期望收益向量,并在所有策略下期望收益有限的情况下实现。这一发现对随机策略设计具有重要影响。
完成下面两步后,将自动完成登录并继续当前操作。