小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种新方法,将大型视频模型与连续动作结合,解决了缺乏具身代理的问题。结果表明,该框架在无外部监督下能有效完成复杂任务,优于专家演示的行为克隆基线,具有重要应用潜力。

通过目标条件探索将视频模型与动作对接

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-11T00:00:00Z

本研究解决了行为克隆在复杂场景中对大量示范需求的低效率问题,表明通过特征表征可以提升神经策略的泛化能力。

行为克隆中的问题空间转换以提高泛化能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

本研究提出了一种可解释的行为克隆大型语言模型代理(EBC-LLMAgent),旨在解决智能代理在复杂移动应用中的交互问题。实验结果表明,该方法在任务完成率和泛化能力方面表现优异。

Interpretable Behavior Cloning: Teaching Large Language Model Agents through Demonstration Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

该论文扩展了“语言世界”基准,支持在模拟机器人环境中使用自然语言进行查询和脚本技能。通过与元世界任务集的比较,分析了大型语言模型与深度强化学习的差异。提出的“计划条件行为克隆”方法能够通过少量示例优化高级计划行为,展现出强大的性能。

在开放世界领域创建和修复机器人程序

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

该论文扩展了“语言世界”基准,支持在模拟机器人环境中使用自然语言进行查询和技能描述。通过与元世界任务集的对比,分析大型语言模型与深度强化学习的差异。提出了一种“计划条件行为克隆”方法,在少样本情况下表现优异。语言世界已开源。

CLIMB:基于语言指导的任务规划持续学习框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本文介绍了SEILO,一种新颖的样本有效on-policy算法。它结合对抗性模仿学习和逆动力学建模,使智能体通过对手过程和行为克隆损失获得反馈。实验表明,SEILO比其他方法需要更少的环境交互即可达到专家水平。

ILAEDA:一种基于模仿学习的自动探索性数据分析方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

本研究使用像素数据训练自主智能体在游戏《毁灭战士2》中进行模仿学习,发现通过行为克隆可以训练出具有攻击性、被动性或接近人类行为的智能体。虽然性能不如强化学习方法,但提供了更接近人类行为的特征。

个性化动态难度调整——模仿学习与强化学习的结合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-13T00:00:00Z

本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权分别作为策略和奖励模型,结合软强化学习框架下的无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活,具有稳定的学习和最小化的超参数调整。

在强化学习中模仿受成本约束的行为

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-26T00:00:00Z

本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权作为策略和奖励模型,结合无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和对策略学习的困难。该方法简单灵活,学习稳定,超参数调整最小化。

外部奖励的软 Q 模仿学习和判别器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-30T00:00:00Z

该研究使用多种技术预测人类社交互动,验证了其有效性。

社交动作预测与认知层次

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-08T00:00:00Z

研究发现,小批量随机梯度下降噪声会导致长时间跨度奖励出现尖锐振荡,但迭代的指数移动平均在减轻梯度方差放大方面非常有效。

SGD 噪声的蝴蝶效应:行为克隆和自回归中的误差放大

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-17T00:00:00Z

该文介绍了一种离线强化学习方法,利用先前经验学习政策,解决了使用行为克隆的限制。作者提出了一种新方法,将状态重构特征学习纳入扩散策略中,以解决分布外泛化问题。作者在二维多模态上下文强化学习环境和 D4RL 基准任务上评估了该模型的性能,实现了最先进的结果。

超越均匀采样:利用不平衡数据集的离线强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-06T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码