本研究提出了一种新方法,将大型视频模型与连续动作结合,解决了缺乏具身代理的问题。结果表明,该框架在无外部监督下能有效完成复杂任务,优于专家演示的行为克隆基线,具有重要应用潜力。
本研究探讨了行为克隆在复杂场景中对大量示范需求的低效率问题。通过表征机器人操控特性,提出的转换方法提高了神经策略在处理超出分布问题实例时的泛化能力。
本研究提出了一种可解释的行为克隆大型语言模型代理(EBC-LLMAgent),旨在解决智能代理在复杂移动应用中的交互问题。实验结果表明,该方法在任务完成率和泛化能力方面表现优异。
本文探讨了行为克隆在复杂驾驶中的可扩展性与限制,指出了数据集偏差和过度拟合的问题。研究提出了多种基于真实数据的模拟器和策略学习方法,展示了在城市驾驶和多智能体交互中的应用潜力,强调了强化学习和模仿学习的有效性。
本文提出了一种混合模仿学习方法,结合行为克隆和逆向加权,以改善深度强化学习在复杂机器人任务中的表现。研究表明,该方法在稀疏奖励任务中优于传统强化学习,能够有效提升初始控制器的性能,促进深度强化学习与机器人控制的结合。
本文探讨了四足机器人在复杂环境中的操控能力,采用强化学习和行为克隆技术,使其能够完成攀爬、按按钮和物体交互等任务。研究还涉及无人机与机械臂的协同工作,利用Q学习和运动规划模型确保任务执行的有效性。实验结果表明,控制策略在动态环境中具有良好的鲁棒性和灵活性。
本文探讨了离线强化学习中的新方法,包括通过行为克隆和数据规范化提高效率、师生框架解决OOD问题、交叉领域方法BOSA、分布鲁棒学习框架及基于评价器正则化回归的算法。这些研究旨在提升离线学习的性能和数据效率,并展望未来研究方向。
本文介绍了一种新的离线强化学习方法——扩散Q学习,结合行为克隆和策略改进,提升了在D4RL基准任务中的表现。该方法通过状态重构特征学习解决分布偏移问题,并在多模态上下文环境中展示了优越性能。同时,提出的自适应策略学习框架和扩散策略优化算法显著提高了训练效率和样本利用率。
本文介绍了新技术BeT,结合多模式建模和动作离散化,提升了离线强化学习和行为克隆的效果。研究提出的C-BeT方法能够从嘈杂数据中提取有用行为,实现无标签学习。BIT框架提高了行动分割的准确性,强化学习在识别专家轨迹中的子目标方面显著优于现有技术。
本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权作为策略和奖励模型,结合无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和对策略学习的困难。该方法简单灵活,学习稳定,超参数调整最小化。
该研究使用多种技术预测人类社交互动,验证了其有效性。
研究发现,小批量随机梯度下降噪声会导致长时间跨度奖励出现尖锐振荡,但迭代的指数移动平均在减轻梯度方差放大方面非常有效。
该文介绍了一种离线强化学习方法,利用先前经验学习政策,解决了使用行为克隆的限制。作者提出了一种新方法,将状态重构特征学习纳入扩散策略中,以解决分布外泛化问题。作者在二维多模态上下文强化学习环境和 D4RL 基准任务上评估了该模型的性能,实现了最先进的结果。
完成下面两步后,将自动完成登录并继续当前操作。