本研究基于视觉SLAM进行机器人路径规划的研究,主要工作包括构建基于ORB-SLAM3系统的密集点云地图、转换成适用于二维路径规划的格网地图、以及基于强化学习的路径规划算法研究。实验验证了设计的视觉SLAM系统的可行性和有效性,并对三种强化学习算法进行了比较验证,得到了最优算法。
该研究提出了一种基于结构信息原则的决策框架,利用无监督划分方法生成状态和动作的抽象表示,提高了单一和多智能体强化学习算法的性能。
本研究介绍了“Box o Flows”系统,用于评估强化学习算法在动态实际环境中的应用,并演示了无模型强化学习算法合成复杂行为的能力。同时探讨了离线强化学习在数据高效假设测试中的作用,这些见解将支持开发可应用于复杂动态系统的系统化强化学习算法。
本文介绍了一种基于偏好的强化学习算法RIME,通过使用人类偏好作为奖励信号,避免了对奖励设计的需求。该算法结合了基于样本选择的鉴别器和动态过滤去噪偏好,提高了当前最先进的PbRL方法的鲁棒性。实验证明了热启动对于有限反馈情况下的鲁棒性和反馈效率都至关重要。
本文研究了通过在计算机视觉系统中使用记忆来改进视频流中的物体检测的精度和减少计算时间的问题。通过交替使用传统的特征提取器和轻量级的提取器,展示了在存在时间记忆的情况下,进行准确检测所需的计算量很小。同时,展示了记忆可以应用于强化学习算法来学习自适应推断策略。该模型在 Imaget VID 2015 数据集上实现了最先进的性能,并在 Pixel 3 手机上以 70+ FPS 的速度运行。
该研究提出了一种利用强化学习算法改善分布式过滤电路(DFCs)设计的自动化方法。实验结果显示该方法在设计效率和质量上有明显改进,尤其在设计复杂或快速演化的DFCs时表现出卓越性能。该方法展现出更高的设计效率,突显了强化学习在电路设计自动化中的潜力。
本文介绍了两种新的强化学习算法:期望延迟深度确定性策略梯度(ExpD3)和偏差利用 - 双延迟深度确定性策略梯度(BE-TD3)。这些算法在连续控制任务中表现出有效性,并超越了现有方法。
本文介绍了一种名为ECORD的新型强化学习算法,通过限制图神经网络的使用,提升了在最大割问题上的表现和可扩展性。ECORD在500个节点的图上优化效果比竞争者提升了最多73%,在具有多达10000个节点的图上也表现强有力。
本文研究了基于进化博弈论思想的路径规划方法,解决了同质自主代理在未知随机环境中的问题。实验证明该方法在大空间中最小化路径长度方面胜过现有强化学习算法近30%,比深度强化学习方法快一个数量级,扩展性更好。同时证明了学到的政策在演化上是稳定的。
本文介绍了使用最新的强化学习算法进行端到端驾驶研究的方法,通过使用前置摄像头的RGB图像,在真实赛车游戏中学习车辆控制,并在不同的道路结构、图形和物理特性下进行评估。结果表明该方法可以快速收敛和更稳健的驾驶,并在看不见的赛道上和法定车速下进行了广义化证明,同时显示出一定的领域适应能力。
controlgym是一个包含36个工业控制设置和10个控制问题的库,集成在OpenAI Gym/Gymnasium框架中,可应用强化学习算法。该项目旨在为学习动态和控制社区提供服务,并探索强化学习算法在学习控制策略、控制器稳定性和鲁棒性问题上的应用,以及在高维度和潜在无穷维度系统上的可扩展性。
本文研究了在预算下动作建议的转移学习模型,发现变异系数 (CV) 对选择生成建议策略具有重要意义。提出了一种新的强化学习算法,能够学习何时提供建议,适应于学生和任务。认为在预算下学习建议是一个更通用的学习问题的例子。
本文提出了一种强化学习算法来解决多智能体马尔可夫决策过程(MMDP),通过黑韦尔的可接近性定理,目标是将每个智能体的时间平均成本降低到预先指定的特定界限以下。该算法在Q-learning算法中结合了每个智能体成本的加权组合,并使用了多个时间尺度的算法。实证结果表明,在具有联合控制的每个阶段成本的更一般的MMDP设置中,该算法表现良好。
本文研究了信息不对称对话中生成信息丰富问题的策略,并提出了一种基于启发式思考的提问策略。使用强化学习算法优化问题的信息丰富程度和特定性,结果显示此策略比其他模型更有效。
该研究使用“Sushi Go Party!”游戏建立了强化学习算法和学习记忆能力的基本标准,并量化了算法在不同纸牌组合上的普适性。同时,通过拟合决策规则对模型策略进行了解释和与人类选手的排名偏好进行了比较,发现了共同规则和新策略。
该研究提出了一种基于谱的方法,用于高效恢复矩阵的奇异子空间并实现最小逐项误差。同时,设计了两种充分利用低秩结构的强化学习算法,包括低秩赌博机问题的最小遗憾算法和低秩马尔可夫决策过程中的无奖励 RL 的最佳策略识别算法,两种算法均具有最先进的性能保证。
该文介绍了一种针对多人普遍和马尔可夫博弈中追随者为短视情况的强化学习算法,通过最小二乘值迭代来求得 Stackelberg-Nash 均衡。该算法在大状态空间的函数逼近工具中简单应用,并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性,为解决追随者为短视的普遍和马尔可夫博弈的 SNE 建立了第一个可以被证明高效的强化学习算法。
该文介绍了置信度条件价值函数的学习方法,能够在训练时学习不同的保守程度,并在评估时动态地选择其中一种。实验结果表明该方法在多个离散控制领域中的性能优于现有的保守离线强化学习算法。
本文介绍了使用最新的强化学习算法进行端到端驾驶研究的方法,通过使用前置摄像头的RGB图像,采用异步演员-评论家(A3C)框架,在真实的赛车游戏中学习车辆控制,并在不同的道路结构、图形和物理特性下进行评估。结果显示该方法能够快速收敛和更稳健地驾驶,并在看不见的赛道上和法定车速下进行了广义化证明,同时展示了一定的领域适应能力。
本文介绍了使用最新的强化学习算法进行端到端驾驶研究的方法,通过使用前置摄像头的RGB图像,在真实的赛车游戏中学习车辆控制,并在不同的道路结构、图形和物理特性下进行评估。结果表明该方法可以快速收敛和更稳健的驾驶,并在看不见的赛道上和法定车速下进行了广义化证明,同时显示出一定的领域适应能力。
完成下面两步后,将自动完成登录并继续当前操作。