本研究提出了一种新方法,将大型视频模型与连续动作结合,解决了缺乏具身代理的问题。结果表明,该框架在无外部监督下能有效完成复杂任务,优于专家演示的行为克隆基线,具有重要应用潜力。
本研究解决了行为克隆在复杂场景中对大量示范需求的低效率问题,表明通过特征表征可以提升神经策略的泛化能力。
本研究提出了一种可解释的行为克隆大型语言模型代理(EBC-LLMAgent),旨在解决智能代理在复杂移动应用中的交互问题。实验结果表明,该方法在任务完成率和泛化能力方面表现优异。
该论文扩展了“语言世界”基准,支持在模拟机器人环境中使用自然语言进行查询和脚本技能。通过与元世界任务集的比较,分析了大型语言模型与深度强化学习的差异。提出的“计划条件行为克隆”方法能够通过少量示例优化高级计划行为,展现出强大的性能。
该论文扩展了“语言世界”基准,支持在模拟机器人环境中使用自然语言进行查询和技能描述。通过与元世界任务集的对比,分析大型语言模型与深度强化学习的差异。提出了一种“计划条件行为克隆”方法,在少样本情况下表现优异。语言世界已开源。
本文介绍了SEILO,一种新颖的样本有效on-policy算法。它结合对抗性模仿学习和逆动力学建模,使智能体通过对手过程和行为克隆损失获得反馈。实验表明,SEILO比其他方法需要更少的环境交互即可达到专家水平。
本研究使用像素数据训练自主智能体在游戏《毁灭战士2》中进行模仿学习,发现通过行为克隆可以训练出具有攻击性、被动性或接近人类行为的智能体。虽然性能不如强化学习方法,但提供了更接近人类行为的特征。
本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权分别作为策略和奖励模型,结合软强化学习框架下的无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活,具有稳定的学习和最小化的超参数调整。
本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权作为策略和奖励模型,结合无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和对策略学习的困难。该方法简单灵活,学习稳定,超参数调整最小化。
该研究使用多种技术预测人类社交互动,验证了其有效性。
研究发现,小批量随机梯度下降噪声会导致长时间跨度奖励出现尖锐振荡,但迭代的指数移动平均在减轻梯度方差放大方面非常有效。
该文介绍了一种离线强化学习方法,利用先前经验学习政策,解决了使用行为克隆的限制。作者提出了一种新方法,将状态重构特征学习纳入扩散策略中,以解决分布外泛化问题。作者在二维多模态上下文强化学习环境和 D4RL 基准任务上评估了该模型的性能,实现了最先进的结果。
完成下面两步后,将自动完成登录并继续当前操作。