厦门大学和香港科技大学提出的新算法MAGE改进了离线强化学习。MAGE采用自顶向下的生成策略,先进行宏观规划,再细化微观细节,有效解决了现有模型在长程规划中的不足。实验结果表明,MAGE在多个任务中表现优异,推理速度快,适合实时控制,展现出强大的全局规划能力。
Cal-QL(校准Q学习)是一种提高离线强化学习后在线微调效率的方法。它通过校准Q值,避免了传统方法中的“遗忘”现象,确保学习到的Q值不低于参考策略的价值,从而防止智能体在微调时误认为新动作更优,导致性能下降。该方法在离线预训练后,通过在线交互进行有效的策略微调,提升了样本效率和策略性能。
本文提出了一种结合离线强化学习与在线强化学习的方法WSRL(Warm-start RL),旨在解决微调过程中的灾难性遗忘问题。WSRL通过在在线微调初期收集少量数据,有效利用预训练知识,提升微调效率和性能,避免依赖大量离线数据。
本研究提出了一种新的离线强化学习框架——时间距离感知转换增强(TempDATA),旨在解决因超出分布样本导致的性能下降问题。TempDATA通过在时间结构化的潜空间中生成增强过渡,能够模拟长期行为,提升多个测试任务的表现。
本研究提出了一种基于离线强化学习的微电网电压调节新方法,利用现有数据集进行模型训练。实验结果表明,该方法在不同数据集上表现出色,尤其在低质量数据集上具有良好效果,展现出重要的应用潜力。
本文提出了一种新颖的密度感知安全感知(DASP)方法,旨在解决离线强化学习中的状态分布偏移问题。该方法通过鼓励代理选择数据密度更高的结果,提升决策过程的安全性和可靠性。
本研究提出了一种新方法,解决离线强化学习中Q值过高估计的问题,特别是在动态推荐系统中。通过梯度反转学习构建平衡状态表示,支持反事实探索,并引入Q值分解策略,显著提升玩家收益和平台推荐效果。
本研究针对离线强化学习中的分布偏移问题,提出了离线机器人世界模型(RWM-O),以改进策略学习,增强泛化能力和安全性,推动基于真实数据的政策学习。
该研究提出VIPO算法,旨在解决离线强化学习中的模型误差导致的保守性问题。VIPO通过最小化离线数据学习的价值与模型估计价值之间的不一致性来增强模型训练。实验结果表明,VIPO在D4RL和NeoRL基准测试中表现优异,提升了模型的准确性。
本研究针对离线强化学习中的模糊问题和复杂算法设计,提出了统一算法Unifloral,并开发了两种新算法,显著提升了性能和效率。
本研究提出了一种基于对抗数据增强的离线强化学习模型MORAL,旨在解决静态数据下策略开发的稳健性问题。实验结果表明,MORAL在政策学习和样本效率方面优于传统方法,具有广泛的适用性。
本研究提出了一种离线强化学习中的离散扩散技能(DDS)算法,旨在解决离散技能空间的开发问题。该算法结合变换器编码器和扩散解码器,显著提升了长时间任务的表现,在AntMaze-v2基准测试中性能提高至少12%,同时增强了可解释性和训练稳定性。
本研究提出了NeoRL-2基准,旨在解决离线强化学习中的数据保守性和环境访问限制问题。该基准应对现实世界中的高延迟效应和安全约束,实验结果显示现有方法在这些基准上表现不佳,强调了对更有效算法的需求。
本研究提出了一种新框架,克服传统可解释方法的局限性,增强离线强化学习中的行为发现与动作归因,从而提供更精确的高层次代理行为解释。
本研究探讨了离线强化学习中的超参数调优与模型选择问题,提出了一种新方法,通过选择不同的值函数或动态模型来优化目标策略。新型选择器LSTD-Tournament在实证性能上表现优异,具有广泛的应用潜力。
本研究提出了一种“可靠性保障的变换器”(RT)算法,旨在解决离线强化学习中的不可靠轨迹问题。RT算法通过计算轨迹的累计可靠性,生成高回报轨迹,并在多个基准任务中表现出优越性。
本研究提出了一种符号Q网络(Sym-Q)框架,利用离线强化学习解决符号回归中整合专家知识和交互困难的问题。实验结果表明,Sym-Q在标准测试中优于现有方法,并在真实案例中通过互动设计机制提升了性能。
本研究提出了一种高效的离线强化学习方法——流量Q学习(FQL),有效解决了传统方法中复杂动作分布的问题。通过训练一步政策,避免了不稳定的递归反向传播,表现优异,适用性广泛。
本研究提出了一种新的离线强化学习算法SOCD,旨在解决多用户延迟约束调度问题。该算法结合了扩散策略网络和无采样的批评网络,从预收集的数据中学习高效的调度策略,显著提升了动态系统的性能,降低了在线交互的成本与损失。
本研究提出了Proj-IQL算法,旨在解决离线强化学习中的外推误差问题。通过引入支持约束和矢量投影技术,优化策略评估与改进。实验结果表明,Proj-IQL在D4RL基准测试中表现优异,尤其在复杂导航任务中。
完成下面两步后,将自动完成登录并继续当前操作。