决策焦点学习的强化损失函数
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
研究在线凸优化游戏的最优策略的遗憾,证明了与随机进程设置中经验最小化算法的行为密切相关,具有自然的几何解释。对各种在线学习问题的最优策略给出了上下界限制,提供了对抗者的明确最优策略的下界。
🎯
关键要点
- 通过 von Neumann 最小极大定理研究在线凸优化游戏的最优策略的遗憾。
- 最优策略的遗憾与随机进程设置中经验最小化算法的行为密切相关。
- 遗憾等于最小期望损失的总和与最小经验损失之间的差的最大值。
- 最优策略的遗憾具有自然的几何解释,可以视为上凸函数的 Jensen 不等式中的差距。
- 对各种在线学习问题的最优策略给出了上下界限制。
- 方法提供了无需构建学习算法的上界,以及对抗者的明确最优策略的下界。
➡️