小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种新方法,将大型视频模型与连续动作结合,解决了缺乏具身代理的问题。结果表明,该框架在无外部监督下能有效完成复杂任务,优于专家演示的行为克隆基线,具有重要应用潜力。

Connecting Video Models with Actions through Goal-Conditioned Exploration

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-11T00:00:00Z

本研究探讨了行为克隆在复杂场景中对大量示范需求的低效率问题。通过表征机器人操控特性,提出的转换方法提高了神经策略在处理超出分布问题实例时的泛化能力。

Problem Space Transformations in Behavioral Cloning to Enhance Generalization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

本研究提出了一种可解释的行为克隆大型语言模型代理(EBC-LLMAgent),旨在解决智能代理在复杂移动应用中的交互问题。实验结果表明,该方法在任务完成率和泛化能力方面表现优异。

Interpretable Behavior Cloning: Teaching Large Language Model Agents through Demonstration Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本文探讨了行为克隆在复杂驾驶中的可扩展性与限制,指出了数据集偏差和过度拟合的问题。研究提出了多种基于真实数据的模拟器和策略学习方法,展示了在城市驾驶和多智能体交互中的应用潜力,强调了强化学习和模仿学习的有效性。

端到端可微分仿真的自主车辆控制器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-12T00:00:00Z

本文提出了一种混合模仿学习方法,结合行为克隆和逆向加权,以改善深度强化学习在复杂机器人任务中的表现。研究表明,该方法在稀疏奖励任务中优于传统强化学习,能够有效提升初始控制器的性能,促进深度强化学习与机器人控制的结合。

由模仿到精细 -- 用于精准视觉组装的残差强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-23T00:00:00Z

本文探讨了四足机器人在复杂环境中的操控能力,采用强化学习和行为克隆技术,使其能够完成攀爬、按按钮和物体交互等任务。研究还涉及无人机与机械臂的协同工作,利用Q学习和运动规划模型确保任务执行的有效性。实验结果表明,控制策略在动态环境中具有良好的鲁棒性和灵活性。

利用机械臂作为尾巴学习快速转向、空中定向和平衡

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-15T00:00:00Z

本文探讨了离线强化学习中的新方法,包括通过行为克隆和数据规范化提高效率、师生框架解决OOD问题、交叉领域方法BOSA、分布鲁棒学习框架及基于评价器正则化回归的算法。这些研究旨在提升离线学习的性能和数据效率,并展望未来研究方向。

离线强化学习中有限数据处理的领域知识整合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

本文介绍了一种新的离线强化学习方法——扩散Q学习,结合行为克隆和策略改进,提升了在D4RL基准任务中的表现。该方法通过状态重构特征学习解决分布偏移问题,并在多模态上下文环境中展示了优越性能。同时,提出的自适应策略学习框架和扩散策略优化算法显著提高了训练效率和样本利用率。

离线强化学习的优化扩散策略

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-29T00:00:00Z

本文介绍了新技术BeT,结合多模式建模和动作离散化,提升了离线强化学习和行为克隆的效果。研究提出的C-BeT方法能够从嘈杂数据中提取有用行为,实现无标签学习。BIT框架提高了行动分割的准确性,强化学习在识别专家轨迹中的子目标方面显著优于现有技术。

潜在行为生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-05T00:00:00Z

本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权作为策略和奖励模型,结合无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和对策略学习的困难。该方法简单灵活,学习稳定,超参数调整最小化。

外部奖励的软 Q 模仿学习和判别器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-30T00:00:00Z

该研究使用多种技术预测人类社交互动,验证了其有效性。

社交动作预测与认知层次

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-08T00:00:00Z

研究发现,小批量随机梯度下降噪声会导致长时间跨度奖励出现尖锐振荡,但迭代的指数移动平均在减轻梯度方差放大方面非常有效。

SGD 噪声的蝴蝶效应:行为克隆和自回归中的误差放大

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-17T00:00:00Z

该文介绍了一种离线强化学习方法,利用先前经验学习政策,解决了使用行为克隆的限制。作者提出了一种新方法,将状态重构特征学习纳入扩散策略中,以解决分布外泛化问题。作者在二维多模态上下文强化学习环境和 D4RL 基准任务上评估了该模型的性能,实现了最先进的结果。

超越均匀采样:利用不平衡数据集的离线强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-06T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码