一种捆绑调整的游戏 —— 学习高效收敛

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文介绍了使用Nesterov的平滑技术和Legendre-Fenchel变换将贝尔曼方程重新构成一个新的原始对偶优化问题,并开发了一个名为平滑贝尔曼误差嵌入的新算法来解决这个优化问题。该算法在几个基准控制问题中表现出色。

🎯

关键要点

  • 使用Nesterov的平滑技术和Legendre-Fenchel变换重构贝尔曼方程。
  • 开发了名为平滑贝尔曼误差嵌入的新算法解决优化问题。
  • 算法支持任何可微分类函数。
  • 提供了通用非线性函数逼近的第一个收敛保证。
  • 分析了算法的样本复杂度。
  • 算法在多个基准控制问题中表现优异。
➡️

继续阅读