动力系统实验设计中的分层粒子滤波
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种新颖的贝叶斯实验设计方法,用于风险敏感型策略优化。该方法通过开发内外SMC^2算法,使用嵌套顺序蒙特卡洛估计器来估计预期信息增益,并将其嵌入到粒子马尔可夫链蒙特卡洛框架中进行基于梯度的策略优化。数值验证表明该方法在一组动力系统上有效。
🎯
关键要点
- 提出了一种新颖的贝叶斯实验设计方法,应用于风险敏感型策略优化。
- 开发了内外SMC^2算法,使用嵌套顺序蒙特卡洛估计器来估计预期信息增益。
- 将预期信息增益嵌入到粒子马尔可夫链蒙特卡洛框架中进行基于梯度的策略优化。
- 与近期方法相比,该方法不依赖于偏差估计器来摊销实验成本。
- 在一组动力系统上的数值验证展示了该方法的有效性与其他最先进策略的比较。
➡️