本研究提出了一种基于在线强化学习的动态权重调整机制,解决实时策略任务评估中的适应性问题,显著提升评估函数在规划算法中的效果,尤其在大地图下计算时间增长控制在6%以内。
本文介绍了新型Transformer解码算法PG-TD,该算法结合规划算法以提升代码生成性能。研究表明,LLM + P框架能够有效解决计划问题,新代码搜索技术通过动态特征增强了大型语言模型的表现。实验验证了该方法在多种编程语言中的一致性和有效性,并探讨了大型语言模型在自动计划中的应用及其面临的挑战。
本文介绍了一种自主学习的方法,通过无标注的机器人轨迹,自动学习抽象状态和动作的关系表示,形成了类似 PDDL 的领域模型。实证结果表明,仅凭少量机器人轨迹就可以学习到强大的抽象表示,并且学习的模型使得规划算法能够扩展到以前超出手工构思抽象的任务范围。
该论文研究了使用群对称性提高规划算法效率和泛化能力。将路径规划问题视为网格上的信号,通过等变卷积网络实现线性等变算子的价值迭代。实验表明,该算法比非等变协方差算法VIN和GPPN更有效率和泛化能力更强。
该研究提出了基于超图的机器学习和规划算法,形成自动化学习代理计划引擎,能够确定最优解并分析系统状态进展,实证结论验证性能。
完成下面两步后,将自动完成登录并继续当前操作。