本研究提出了一种新方法,将测试时的计算优化视为元强化学习问题。通过引入累积遗憾的概念,研究表明最大化稠密奖励可以提高计算效率,实现2-3倍的性能提升和1.5倍的令牌效率提升,从而显著改善大型语言模型的推理表现。
本研究提出PRISM架构,旨在解决元强化学习在长时间环境中的适应性不足问题。通过优先提取高质量数据,PRISM能够有效学习与任务相关的技能,实现稳定的技能学习。
本研究提出了一种任务感知虚拟训练(TAVT)算法,旨在提升元强化学习在分布外任务中的泛化能力。通过度量表示学习和状态正则化,TAVT有效捕捉任务特征,减少估计误差。实验结果表明,该算法在MuJoCo和MetaWorld环境中显著提高了泛化能力。
AIxiv专栏促进学术交流,报道超过2000篇研究内容。研究团队提出新算法UNICORN,基于信息论,解决离线元强化学习中的任务表示学习问题,提升AI决策能力,助力药物发现等领域。
本研究提出了一种可泛化的自主渗透测试框架(GAP),通过领域随机化和元强化学习解决了自主渗透测试在真实环境中的应用和泛化能力不足的问题。GAP能够在未知环境中学习策略,实现零-shot 策略迁移和快速适应,具有重要的实际应用潜力。
本研究提出了一种新方法,解决元强化学习在多任务优化中的训练损失不平衡问题,特别是由于任务回报尺度不均造成的瓶颈。该方法在不同环境中表现出显著进展,推动了在线多任务适应和记忆问题的解决。
本研究探讨了元强化学习在因果推理中的应用,训练递归神经网络进行无模型强化学习,证明其在新情境下进行因果推断和反事实预测的能力。研究提出了新的学习方法和算法,强调因果结构的快速适应性及其在复杂推理场景中的有效性,展示了因果模型的分类和识别方法的进展。
本文探讨了元强化学习中的任务信息受限问题,提出通过学习策略和任务信念来解决部分可观测马尔可夫决策问题。介绍了AllenAct、MetaMorph和TrMRL等方法,展示了它们在复杂控制环境中的有效性和性能提升。强调了基于Transformer架构的模型在元学习中的优势及其在动物和机器人行为研究中的应用潜力。
本文探讨了多任务离线强化学习中的数据共享问题,提出了一种保守的数据共享方法,以提升机器人控制性能。同时,研究了基于模型的元强化学习方法MerPO,改进了探索与利用的平衡。此外,介绍了利用专家数据提取内在奖励的方法,解决了离线强化学习中的外部奖励问题。最后,研究了离线多任务表示学习,提出了新算法MORL,展示了使用上游任务表示的优势。
本文介绍了一种基于最大熵强化学习的离线演员-评论家算法Soft Actor-Critic,旨在提高模型的稳定性和训练速度。该算法在多项现实任务中表现优异,尤其在安全强化学习中提出了新的拉格朗日乘数更新方法,以确保策略的安全性和高效性。此外,研究探讨了元强化学习在非稳态环境中的应用,提出了新的无模型安全强化学习算法,显著减少了安全违规并提高了策略回报。
本文介绍了TrMRL,一种基于元强化学习的代理,结合了Transformer架构和记忆机制,提升了高维控制环境中的表现。研究探讨了模仿学习和自监督学习在机器人任务中的应用,强调了transformers在强化学习中的潜力与局限性,并提出了跨机器人策略转移的新方法。
本文探讨了通过引入可量化噪声来评估强化学习代理在新环境中的推广能力。研究表明,在60个ATARI游戏中,采用不同噪声设置的训练方法显著提升了代理的表现。此外,提出了一种基于偏好反馈的元强化学习方法,能够快速适应新任务,实验结果优于传统算法。
本文介绍了多个元强化学习工具和基准测试,包括XLand-MiniGrid和XL2Bench,后者评估大型语言模型在长文本理解中的表现,结果显示其性能低于人类水平。此外,MineRL数据集为Minecraft任务提供了丰富的示范数据,推动了相关技术研究。
本研究提出了一种元强化学习算法框架,旨在提高在分布转移下的适应能力和性能。研究评估了奖励模型与分布偏移的关系,发现异常输入会导致校准和准确率下降,并提出了相应的检测方法。研究表明,奖励最大化与分布匹配之间存在联系,所提出的算法在任务分布变化下表现优异,能够有效提升机器翻译质量。
该研究使用元强化学习和分散训练探索了集体探索策略的产生,发现去中心化的智能体在对抗多个子任务动态组成的大量任务树时表现出了强大的泛化能力,并且能够解决训练过程中从未遇到的新任务。
本文探讨了元强化学习中的探索问题,提出了两种新算法:E-MAML和E-RL²。实验结果表明,这两种算法在重要任务的探索中表现优异,尤其是在“疯狂世界”和迷宫环境中。
完成下面两步后,将自动完成登录并继续当前操作。