具有延迟反馈的风险厌恶学习

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种基于条件价值风险(CVaR)的风险厌恶学习方法,解决决策延迟问题。研究开发了两种零阶优化算法,发现两点风险厌恶学习比一点算法悔恨更小,并在特定延迟下实现次线性悔恨。数值实验验证了算法在动态定价中的有效性。

🎯

关键要点

  • 提出了一种基于条件价值风险(CVaR)的风险厌恶学习方法。

  • 解决了决策延迟问题。

  • 开发了两种零阶优化算法。

  • 两点风险厌恶学习比一点算法悔恨更小。

  • 在特定延迟下实现次线性悔恨。

  • 数值实验验证了算法在动态定价中的有效性。

➡️

继续阅读