有限资源下的偏好学习复杂性理解
原文中文,约200字,阅读约需1分钟。发表于: 。奖励最大化问题中,我们考虑资源消耗的限制下的对决强盗设置。我们提出了基于 EXP3 的对决算法,并通过数值模拟证明了我们提出方法的有效性。
本文研究了有限信息下使用上下文信息进行学习选择行动的问题,并提出了基于博弈论的新解决方案概念von Neumann优胜者。同时,提出了三种有效的算法,用于在线学习和从类似批处理的数据中逼近von Neumann优胜者。
奖励最大化问题中,我们考虑资源消耗的限制下的对决强盗设置。我们提出了基于 EXP3 的对决算法,并通过数值模拟证明了我们提出方法的有效性。
本文研究了有限信息下使用上下文信息进行学习选择行动的问题,并提出了基于博弈论的新解决方案概念von Neumann优胜者。同时,提出了三种有效的算法,用于在线学习和从类似批处理的数据中逼近von Neumann优胜者。