本文提出了一种新颖的贝叶斯实验设计方法,用于风险敏感型策略优化。该方法通过开发内外SMC^2算法,使用嵌套顺序蒙特卡洛估计器来估计预期信息增益,并将其嵌入到粒子马尔可夫链蒙特卡洛框架中进行基于梯度的策略优化。数值验证表明该方法在一组动力系统上有效。
完成下面两步后,将自动完成登录并继续当前操作。