研究团队提出了可控生成世界模型Ctrl-World,帮助机器人在“想象空间”中进行任务预演和策略评估。该模型在零真机数据下,成功率从38.7%提升至83.4%,显著提升了机器人在复杂场景中的表现。
观察性研究在无法进行控制实验时尤为重要,特别是在美团的到家履约业务中。由于法律和成本限制,观察性研究成为评估策略效果的有效方法。合成控制法、匹配方法和因果影响分析等方法可帮助消除选择性偏差,提供科学评估结果。
随机对照实验是美团评估策略的重要工具,通过比较实验组和对照组的表现来判断策略效果。尽管其可信性高,但在样本量小和分组不均的情况下仍面临挑战。为提高实验效能,可采用分层随机分组和配对随机分组等方法,以确保同质性并减少混杂因素的影响。
本文提出了一种新颖的演员-评论者算法,有效解决了策略评估和优化中的样本复杂度问题,能够以较低的样本复杂度实现$ ext{ε}$-最优策略,尤其在离线数据中表现突出。
本研究提出AutoEval系统,旨在全自动化评估机器人学习中的策略,提升评估效率与质量,并与人工评估高度一致,促进广泛应用。
本研究提出了一种新型多智能体强化学习算法Loc-FACMAC,解决了去中心化系统中个体机器人动作评估不准确的问题。通过引入邻域概念,显著提高了策略评估的精准度,实验结果表明其性能优于现有算法,提升幅度可达108%。
本研究提出了Proj-IQL算法,旨在解决离线强化学习中的外推误差问题。通过引入支持约束和矢量投影技术,优化策略评估与改进。实验结果表明,Proj-IQL在D4RL基准测试中表现优异,尤其在复杂导航任务中。
本文研究了离线强化学习中的策略评估与优化,提出了递归方法、混合策略微调算法和基于后验采样的算法,以提高样本复杂度和学习效率。这些研究为解决马尔可夫决策过程中的问题提供了新思路,具有重要的应用价值。
本文提出了一种新的离线强化学习策略评估框架,利用动态因子模型处理双不均性,开发了支持模型和无模型方法的评估技术。研究提供了基准数据集,以评估和选择复杂政策,解决历史数据中的协变量偏移问题,并提出有效的估算器。该框架在不同环境下表现优于现有算法,能够更准确地评估政策效用。
本文介绍了一种名为ADA-NSTORM的方法,利用自适应学习率解决组合型最小极大优化问题,比NSTORM更有效。该方法推动了组合型最小极大优化的发展,保证了分布鲁棒性和策略评估的关键能力。
完成下面两步后,将自动完成登录并继续当前操作。