研究团队提出了可控生成世界模型Ctrl-World,帮助机器人在“想象空间”中进行任务预演和策略评估。该模型在零真机数据下,成功率从38.7%提升至83.4%,显著提升了机器人在复杂场景中的表现。
观察性研究在无法进行控制实验时尤为重要,特别是在美团的到家履约业务中。由于法律和成本限制,观察性研究成为评估策略效果的有效方法。合成控制法、匹配方法和因果影响分析等方法可帮助消除选择性偏差,提供科学评估结果。
随机对照实验是美团评估策略的重要工具,通过比较实验组和对照组的表现来判断策略效果。尽管其可信性高,但在样本量小和分组不均的情况下仍面临挑战。为提高实验效能,可采用分层随机分组和配对随机分组等方法,以确保同质性并减少混杂因素的影响。
本文提出了一种新颖的演员-评论者算法,有效解决了策略评估和优化中的样本复杂度问题,能够以较低的样本复杂度实现$ ext{ε}$-最优策略,尤其在离线数据中表现突出。
本研究提出AutoEval系统,旨在全自动化评估机器人学习中的策略,提升评估效率与质量,并与人工评估高度一致,促进广泛应用。
本研究提出了一种新型多智能体强化学习算法Loc-FACMAC,解决了去中心化系统中个体机器人动作评估不准确的问题。通过引入邻域概念,显著提高了策略评估的精准度,实验结果表明其性能优于现有算法,提升幅度可达108%。
本研究提出了Proj-IQL算法,旨在解决离线强化学习中的外推误差问题。通过引入支持约束和矢量投影技术,优化策略评估与改进。实验结果表明,Proj-IQL在D4RL基准测试中表现优异,尤其在复杂导航任务中。
本文研究了学习策略中监督者变化的问题,提出了一种从收敛监督者进行模仿学习的方法。作者将该框架与DPI强化学习算法结合,在连续控制任务中表现优于深度强化学习基线,并实现了策略评估速度提升至80倍。
我们提出了一种新的最大熵强化学习框架EBFlow,集成了策略评估和策略改进步骤,支持多模态动作分布建模。实验结果显示,EBFlow在高维机器人任务上优于传统方法。
本文介绍了一种名为ADA-NSTORM的方法,利用自适应学习率解决组合型最小极大优化问题,比NSTORM更有效。该方法推动了组合型最小极大优化的发展,保证了分布鲁棒性和策略评估的关键能力。
完成下面两步后,将自动完成登录并继续当前操作。