小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。

ICLR 2025 Oral | 训练LLM,不只是多喂数据,PDS框架给出最优控制理论选择

机器之心
机器之心 · 2025-04-23T09:27:00Z

本研究解决了多机器人系统在协同实现团队目标时的安全控制问题,尤其是在传统算法训练不稳定的情况下。通过引入约束优化的表面形式,并提出了一种新颖的集中训练和分布执行的多智能体强化学习算法Def-MARL,该方法在多个任务中展现出最佳性能且保证安全约束。通过真实硬件实验,验证了Def-MARL安全协调智能体完成复杂任务的能力。

基于分布式表面形式的多智能体安全最优控制问题的解决

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-21T00:00:00Z
通过方向修正解释和改进最优控制问题

本文提出了一种基于方向修正的框架,以解决机器人任务中的最优控制问题(OCP)设计挑战。该方法通过分析不理想解的成本组件与专家修正方向的一致性,优化OCP目标函数,提高解决方案的可行性。

通过方向修正解释和改进最优控制问题

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-03T00:00:00Z

本研究提出了一种新方法,将伞形采样与最优控制结合,解决强化学习中的非线性问题。该方法在处理稀疏奖励和状态陷阱时,计算效率更高,适用性更广。

Umbrella Reinforcement Learning: A Computationally Efficient Tool for Solving Challenging Nonlinear Problems

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本研究提出了一种新框架OC-Flow,旨在解决基于ODE的生成模型在复杂几何下的应用不足。该方法通过最优控制实现系统理论分析,并在文本引导图像处理和条件分子生成等多个实验中显示出显著的性能提升。

Optimal Control for Training-Free Guided Flow Matching

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-23T00:00:00Z

本研究提出了一种基于庞特里亚金最大化原理的数据选择框架,旨在从大量语料中选择高质量的预训练数据。通过将问题形式化为广义最优控制问题,该框架加速了语言模型的学习,并提升了多项下游任务的表现。

通过最优控制进行语言模型的数据选择

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本文提出了一种统一框架,通过反向传播学习连续控制策略,支持随机控制。研究展示了多种算法在高维随机控制问题中的有效性,强调了深度学习与动态系统结合的潜力,并提出了改进的强化学习算法以提高数据效率,探讨了安全轨迹优化和风险敏感控制的应用。

无仿真深度学习方法解决随机最优控制问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

该研究提出了一种利用高阶导数和自适应微分方程求解器的方法,以提高神经网络在求解偏微分方程时的效率。通过引入代理模型和正则化技术,成功解决了最优控制问题,并在多个数值实验中验证了其有效性。此外,研究展示了一种两阶段训练方法,能够满足约束并提升模型预测性能。

学习求解受微分方程约束的优化问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

该研究探讨了深度学习在控制随机微分方程中的应用,提出了一种基于深度算子网络和物理知识学习的算法,旨在解决高维随机控制问题。研究表明,KAN-ODE在建模灵活性、训练速度和准确性方面优于传统方法,具有广泛的科学应用潜力。

KANtrol: 一种基于物理的科尔莫戈罗夫-阿诺德网络框架解决多维和分数最优控制问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z

本研究提出了一种基于深度学习的非线性模型降维策略,结合深度卷积自编码器和LSTM网络,实现高效计算。通过图卷积自编码器和最小二乘变分自动编码器,提高了非线性动态系统的参数插值准确性。同时,研究探讨了基于物理规律的训练策略,以解决数据不足的问题,并开发了潜在动态模型的新框架,展示了其在非线性降维中的应用潜力。

基于深度学习的降阶模型在高维参数化系统中的实时最优控制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

本文提出了两种新的算法,专为离散时间确定有限时域非线性最优控制问题或轨迹优化问题而设计。这些算法受到了概率最优控制理论的启发,将最优控制重新制定为概率推断问题。通过应用这些算法,得到的概率策略的固定点迭代收敛于确定性最优策略。这些算法在结构上与微分动态规划算法和使用sigma点方法避免直接梯度评估的方法最为接近。这些算法在迭代中改善了探索和利用之间的平衡,实现了更好的数值稳定性和加速收敛。

确定性轨迹优化通过概率最优控制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z

该研究提出了一种分散的线性二次最优控制问题,并构建了几个近似可分离的约束优化问题。通过引入分段二次稀疏性提升函数和逐次逐坐标凸优化问题的逼近方法,解决了具有非凸不连续特性的稀疏性提升函数优化问题。

分散线性二次最优控制的双时标优化框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

深度 Galerkin 方法 (DGM) 是一种使用深度神经网络解决高维偏微分方程问题的新算法。与传统方法依赖于网格不同,DGM通过对随机采样的时间和空间点进行批量训练来实现结果。该算法已在各种高维方程上进行了测试,并在不同边界和物理条件下展示了准确的近似通解。该论文还证明了神经网络在一类拟线性抛物型偏微分方程上的逼近能力。

基于深度 Galerkin 反馈法的智能体动力学最优控制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-13T00:00:00Z

该论文介绍了一种名为Deep Latent Competition(DLC)的强化学习算法,通过自我博弈在想象中学习竞争性视觉控制策略,实现长期推理。DLC代理人在紧凑潜在空间中想象多智能体互动序列,减少实际采样成本,同时潜在表示启用规划随着观察维度的扩展而平滑扩展。该算法在新颖多智能体比赛基准测试中学习了有效的竞争行为。

基于潜空间目标的最优控制的深度强化学习行为模式切换

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z

本文研究了价值函数在强化学习和最优控制中的重要性,提供了价值函数连续性的上界界限,并证明了在底层系统有弱假设的情况下,价值函数总是H"older连续的。

强化学习和最优控制中价值函数的连续性和光滑性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-21T00:00:00Z

本研究发现使用修正线性单元作为激活函数的人工神经网络可以准确表示线性时不变系统的模型预测控制的分段仿射函数。使用更深的网络可以表示更多的仿射区域。研究提出了决定神经网络最小隐藏层数和每层神经元数的理论界限。该方法有潜力成为预测控制规律的近似方法,可以提高近似质量并减少内存需求。还提出了校正或量化近似误差的替代方案。可以在低功耗嵌入式设备上部署近似控制器,实现复杂物理系统的先进决策制定策略。

多层次最优控制与神经替代模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-12T00:00:00Z

本文提出了一种结合基于模型的最优控制与强化学习的动态、鲁棒的腿式locomotion的多功能控制方法,能够生成不同的四足步态模式并保持稳定,对不太平的地形也具有适应性。

多功能、动态和鲁棒的双足步行运动控制的强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-30T00:00:00Z

本文研究了多层神经网络在控制方面的应用,通过强化学习训练后实现了控制策略。结果表明可以成功训练具有成千上万个参数的神经网络控制器,并比较了不同结构。文章讨论了与有监督知觉任务的区别,并讨论了将深度学习技术应用于控制问题优化的未来方向。

深度多任务神经网络解决一些随机最优控制问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-23T00:00:00Z

本文提出了一种针对机械操作的轨迹优化方法,使用混合整数二次规划进行评估,并考虑了互补和状态的联合机会约束。与近期方法进行了比较。

随机最优控制匹配

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-04T00:00:00Z

本文研究了为敏捷移动机器人设计控制系统,重点研究了自主无人机赛车场景。研究表明,强化学习训练的神经网络控制器优于最优控制方法。强化学习可以直接优化任务级目标,并能够利用领域随机化来应对模型不确定性,从而发现更稳健的控制响应。本研究对于推动敏捷机器人的最大性能具有重要意义,并阐明了强化学习和最优控制在机器人控制中的作用。

自主赛车的极限探索:最优控制与强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-17T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码