小红花·文摘

本研究提出了一种新方法，将大型视频模型与连续动作结合，解决了缺乏具身代理的问题。结果表明，该框架在无外部监督下能有效完成复杂任务，优于专家演示的行为克隆基线，具有重要应用潜力。

BriefGPT - AI 论文速递 ·

本研究解决了行为克隆在复杂场景中对大量示范需求的低效率问题，表明通过特征表征可以提升神经策略的泛化能力。

BriefGPT - AI 论文速递 ·

本研究提出了一种可解释的行为克隆大型语言模型代理（EBC-LLMAgent），旨在解决智能代理在复杂移动应用中的交互问题。实验结果表明，该方法在任务完成率和泛化能力方面表现优异。

BriefGPT - AI 论文速递 ·

该论文扩展了“语言世界”基准，支持在模拟机器人环境中使用自然语言进行查询和脚本技能。通过与元世界任务集的比较，分析了大型语言模型与深度强化学习的差异。提出的“计划条件行为克隆”方法能够通过少量示例优化高级计划行为，展现出强大的性能。

BriefGPT - AI 论文速递 ·

该论文扩展了“语言世界”基准，支持在模拟机器人环境中使用自然语言进行查询和技能描述。通过与元世界任务集的对比，分析大型语言模型与深度强化学习的差异。提出了一种“计划条件行为克隆”方法，在少样本情况下表现优异。语言世界已开源。

BriefGPT - AI 论文速递 ·

本文介绍了SEILO，一种新颖的样本有效on-policy算法。它结合对抗性模仿学习和逆动力学建模，使智能体通过对手过程和行为克隆损失获得反馈。实验表明，SEILO比其他方法需要更少的环境交互即可达到专家水平。

BriefGPT - AI 论文速递 ·

本研究使用像素数据训练自主智能体在游戏《毁灭战士2》中进行模仿学习，发现通过行为克隆可以训练出具有攻击性、被动性或接近人类行为的智能体。虽然性能不如强化学习方法，但提供了更接近人类行为的特征。

BriefGPT - AI 论文速递 ·

本文提出了一种混合的模仿学习方法，将行为克隆和逆向加权分别作为策略和奖励模型，结合软强化学习框架下的无限制行为克隆技术和正则化方法，以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活，具有稳定的学习和最小化的超参数调整。

BriefGPT - AI 论文速递 ·

本文提出了一种混合的模仿学习方法，将行为克隆和逆向加权作为策略和奖励模型，结合无限制行为克隆技术和正则化方法，以克服使用诱导式奖励和对策略学习的困难。该方法简单灵活，学习稳定，超参数调整最小化。

BriefGPT - AI 论文速递 ·

该研究使用多种技术预测人类社交互动，验证了其有效性。

BriefGPT - AI 论文速递 ·

研究发现，小批量随机梯度下降噪声会导致长时间跨度奖励出现尖锐振荡，但迭代的指数移动平均在减轻梯度方差放大方面非常有效。

BriefGPT - AI 论文速递 ·

该文介绍了一种离线强化学习方法，利用先前经验学习政策，解决了使用行为克隆的限制。作者提出了一种新方法，将状态重构特征学习纳入扩散策略中，以解决分布外泛化问题。作者在二维多模态上下文强化学习环境和 D4RL 基准任务上评估了该模型的性能，实现了最先进的结果。

BriefGPT - AI 论文速递 ·