本文研究了强化学习中的多个关键问题,包括价值迭代的鲁棒性、Lipschitz连续模型的影响以及离线强化学习策略的性能下限。提出了新的算法和理论结果,分析了模型误差对策略选择的影响,并提供了实证结果,展示了在不同设置下的性能界限。
本文研究了局部SGD在凸设置中的性能,证明其优于小批量SGD,并提供了总体上至少有时优于小批量SGD的第一个保证。同时,发现局部SGD存在一种性能下限,比小批量SGD保证更差。
完成下面两步后,将自动完成登录并继续当前操作。