具有量化可达性目标的马尔可夫决策过程中的竞标游戏

📝

内容提要

本研究解决了竞标游戏在马尔可夫决策过程(MDP)中结合随机环境不确定性与代理之间拍卖互动的关键问题。提出了一种新颖的方法,通过价值迭代算法近似阈值和最优策略,并计算无环MDP的精确解,发现寻找阈值的难度至少与解决简单随机博弈同等高,从而推动了此领域分析技术的发展。

🏷️

标签

➡️

继续阅读