机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。
本研究解决了多机器人系统在协同实现团队目标时的安全控制问题,尤其是在传统算法训练不稳定的情况下。通过引入约束优化的表面形式,并提出了一种新颖的集中训练和分布执行的多智能体强化学习算法Def-MARL,该方法在多个任务中展现出最佳性能且保证安全约束。通过真实硬件实验,验证了Def-MARL安全协调智能体完成复杂任务的能力。
本文提出了一种基于方向修正的框架,以解决机器人任务中的最优控制问题(OCP)设计挑战。该方法通过分析不理想解的成本组件与专家修正方向的一致性,优化OCP目标函数,提高解决方案的可行性。
本研究提出了一种新方法,将伞形采样与最优控制结合,解决强化学习中的非线性问题。该方法在处理稀疏奖励和状态陷阱时,计算效率更高,适用性更广。
本研究提出了一种新框架OC-Flow,旨在解决基于ODE的生成模型在复杂几何下的应用不足。该方法通过最优控制实现系统理论分析,并在文本引导图像处理和条件分子生成等多个实验中显示出显著的性能提升。
本研究提出了一种基于庞特里亚金最大化原理的数据选择框架,旨在从大量语料中选择高质量的预训练数据。通过将问题形式化为广义最优控制问题,该框架加速了语言模型的学习,并提升了多项下游任务的表现。
本文提出了一种统一框架,通过反向传播学习连续控制策略,支持随机控制。研究展示了多种算法在高维随机控制问题中的有效性,强调了深度学习与动态系统结合的潜力,并提出了改进的强化学习算法以提高数据效率,探讨了安全轨迹优化和风险敏感控制的应用。
该研究提出了一种利用高阶导数和自适应微分方程求解器的方法,以提高神经网络在求解偏微分方程时的效率。通过引入代理模型和正则化技术,成功解决了最优控制问题,并在多个数值实验中验证了其有效性。此外,研究展示了一种两阶段训练方法,能够满足约束并提升模型预测性能。
该研究探讨了深度学习在控制随机微分方程中的应用,提出了一种基于深度算子网络和物理知识学习的算法,旨在解决高维随机控制问题。研究表明,KAN-ODE在建模灵活性、训练速度和准确性方面优于传统方法,具有广泛的科学应用潜力。
本研究提出了一种基于深度学习的非线性模型降维策略,结合深度卷积自编码器和LSTM网络,实现高效计算。通过图卷积自编码器和最小二乘变分自动编码器,提高了非线性动态系统的参数插值准确性。同时,研究探讨了基于物理规律的训练策略,以解决数据不足的问题,并开发了潜在动态模型的新框架,展示了其在非线性降维中的应用潜力。
本文提出了一种针对非线性机器人系统的闭环控制方案,利用增量马尔可夫决策过程(iMDP)算法优化控制策略,降低跟踪偏差。同时,研究探讨了基于最大熵的强化学习方法和新的随机优化算法,强调了其在非凸环境中的收敛性及在机器人应用中的有效性。
本文提出了一种新方法来解决两时间尺度优化问题,通过平均化步骤改善算子估计,消除主要变量间的直接耦合,从而显著加快收敛速度。该方法在强化学习中表现优异,超越了传统算法,并通过数值模拟验证了理论结果。
该研究提出了一种基于深度学习的神经Galerkin方法,用于高维偏微分方程的数值求解。该方法通过自适应训练数据,成功模拟多变量系统的波动与相互作用,并在高维空间中有效处理复杂边界条件,特别适用于随机控制问题和非线性系统。
该论文研究了深度强化学习代理的行为模式,分析了离散动作空间和探索选择对训练表现的影响。结果显示,在检查任务中有限选择表现最佳,而在停靠任务中连续控制效果更佳。此外,提出了多层次策略学习和基于潜在空间的强化学习算法,显著提高了样本效率和任务转移能力。
本文探讨了强化学习中的函数逼近问题,提出了Fitted Q-Iteration算法的边界不变量分析,解决了价值函数定义不唯一的问题,并分析了连续状态-动作空间的收敛性。研究还提出了基于控制理论的价值函数验证方法和新的训练算法Diffused Value Function (DVF),展示了其在机器人基准测试中的有效性。
本研究发现使用修正线性单元作为激活函数的人工神经网络可以准确表示线性时不变系统的模型预测控制的分段仿射函数。使用更深的网络可以表示更多的仿射区域。研究提出了决定神经网络最小隐藏层数和每层神经元数的理论界限。该方法有潜力成为预测控制规律的近似方法,可以提高近似质量并减少内存需求。还提出了校正或量化近似误差的替代方案。可以在低功耗嵌入式设备上部署近似控制器,实现复杂物理系统的先进决策制定策略。
本文提出了一种结合基于模型的最优控制与强化学习的动态、鲁棒的腿式locomotion的多功能控制方法,能够生成不同的四足步态模式并保持稳定,对不太平的地形也具有适应性。
本文研究了多层神经网络在控制方面的应用,通过强化学习训练后实现了控制策略。结果表明可以成功训练具有成千上万个参数的神经网络控制器,并比较了不同结构。文章讨论了与有监督知觉任务的区别,并讨论了将深度学习技术应用于控制问题优化的未来方向。
本文提出了一种针对机械操作的轨迹优化方法,使用混合整数二次规划进行评估,并考虑了互补和状态的联合机会约束。与近期方法进行了比较。
本文研究了为敏捷移动机器人设计控制系统,重点研究了自主无人机赛车场景。研究表明,强化学习训练的神经网络控制器优于最优控制方法。强化学习可以直接优化任务级目标,并能够利用领域随机化来应对模型不确定性,从而发现更稳健的控制响应。本研究对于推动敏捷机器人的最大性能具有重要意义,并阐明了强化学习和最优控制在机器人控制中的作用。
完成下面两步后,将自动完成登录并继续当前操作。