具有量化可达性目标的马尔可夫决策过程中的竞标游戏
📝
内容提要
本研究解决了竞标游戏在马尔可夫决策过程(MDP)中结合随机环境不确定性与代理之间拍卖互动的关键问题。提出了一种新颖的方法,通过价值迭代算法近似阈值和最优策略,并计算无环MDP的精确解,发现寻找阈值的难度至少与解决简单随机博弈同等高,从而推动了此领域分析技术的发展。
🏷️
标签
➡️