通过分析无声攻击,发现了重大安全漏洞。强化学习算法可迅速掌控所有节点。需要加强网络安全措施,特别是对移动设备和语音激活的防护。无声攻击可能成为未来威胁,源自麦克风设计和数字信号处理。
本研究提出了基于ELO评分的强化学习算法,解决了长期强化学习中奖励函数设计的挑战。该算法利用专家对轨迹的偏好来估计奖励,表现优于传统算法,具有训练稳定性和改进效果。
本研究在可控且现实的环境中直接训练强化学习算法,测试了三种算法在复杂手持操作任务中的效果,结果展示了RL训练在实际应用中的实用性及相关挑战,为机器人领域的研究者和从业者提供了宝贵的经验和启示。
本研究开发了一种强化学习算法,用于解决追随者为短视的多人普遍和马尔可夫博弈,实现Stackelberg-Nash均衡。该算法在大状态空间中应用简单,并在在线和离线设置下证明了亚线性遗憾和亚最优性。这是第一个高效解决追随者为短视的普遍和马尔可夫博弈的强化学习算法。
通过知识传递,量化和比较强化学习算法在探索和学习方面的努力。使用基于最优输运的度量方法比较强化学习和监督学习算法在数据分布空间中的路径总长度。提供关于强化学习算法的探索行为的洞见,并比较不同算法的探索行为。
本文使用最新的强化学习算法进行端到端驾驶研究,仅使用前置摄像头的RGB图像。通过异步演员-评论家(A3C)框架在真实赛车游戏中学习车辆控制,并在不同道路结构、图形和物理特性下进行评估。结果表明该方法可以快速收敛和更稳健地驾驶,并在看不见的赛道上和法定车速下进行了广义化证明。同时,该方法在实际影像序列上显示出一定的领域适应能力。
本文介绍了一种名为AIHF的单阶段方法,通过集成人类偏好和演示来训练奖励模型和策略,对语言模型和机器人控制问题的对齐表现优于传统强化学习算法。
本文研究了去中心化多智能体强化学习问题中的不后悔算法,发现无法以多项式时间实现无后悔学习。该文提出了基于集聚方法的创新性应用,并对博弈理论和强化学习算法研究方向提出了新的思考。
该论文介绍了一种名为Deep Latent Competition(DLC)的强化学习算法,通过自我博弈在想象中学习竞争性视觉控制策略,实现长期推理。DLC代理人在紧凑潜在空间中想象多智能体互动序列,减少实际采样成本,同时潜在表示启用规划随着观察维度的扩展而平滑扩展。该算法在新颖多智能体比赛基准测试中学习了有效的竞争行为。
本文研究了模型在强化学习算法中的使用,提出了一种基于模型的算法,并探讨了模型在策略优化中的作用。作者展示了一种简单的方法,使用短模型生成滚动数据,具有比其他方法更好的样本效率,并能处理其他算法不能处理的问题。
通过强化学习算法训练的编码器-解码器重述模型生成多样化的对抗性示例,成功率高于原始模型,比其他竞争性攻击更有效。讨论了关键设计选择对生成示例的影响以及该方法的优势和弱点。
本文提出了两种新方法来改进自动生成系统,一种使用强化学习算法识别和排序相关列,另一种使用单元格相似性增强少样例选择。方法在66个数据集上测试,展现出在数据填充、错误检测和实体匹配三个任务中的改进性能。
本文介绍了MetaDrive驾驶仿真平台,用于研究机器自我行驶的强化学习算法。通过构建各种任务和基准测试,评估了机器在不同场景下的行为,并提出了安全强化学习算法和多智能体强化学习算法的基准测试。训练循环的增加可以提高机器的推广能力。
我们提出了一种学习可重复使用稠密奖励的新方法,称为DrS。该方法通过任务的阶段结构从稀疏奖励和示范中学习高质量的稠密奖励,并在未知任务中复用。实验证明该方法提高了强化学习算法的性能和样本效率,有些任务的性能甚至与人工奖励相媲美。
本研究基于视觉SLAM进行机器人路径规划的研究,主要工作包括构建基于ORB-SLAM3系统的密集点云地图、转换成适用于二维路径规划的格网地图、以及基于强化学习的路径规划算法研究。实验验证了设计的视觉SLAM系统的可行性和有效性,并对三种强化学习算法进行了比较验证,得到了最优算法。
该研究提出了一种基于结构信息原则的决策框架,利用无监督划分方法生成状态和动作的抽象表示,提高了单一和多智能体强化学习算法的性能。
本文介绍了一种解决零样本泛化挑战的强化学习算法,通过理解和利用环境的上下文线索,将上下文表示的学习与策略学习相结合。该算法在各种模拟域中展示了改进的泛化能力,在零样本情境中优于先前的上下文学习技术。同时学习策略和上下文,实现了特定行为的上下文表示,并在实现跨不同真实世界任务的强化学习系统上取得了进展。
该研究提出了一种新的强化学习算法S-REINFORCE,利用神经网络和符号回归器生成可解释的策略。实验结果表明该算法在低维度和高维度决策空间上都具有高效性和影响力,适用于透明度和因果关系重要的实际应用。
该研究介绍了一种安全感知的强化学习算法,用于电动车充电站管理和满足系统约束。该算法在不确定环境中学习模式,提高电动车充电管理效果。
本研究介绍了“Box o Flows”系统,用于评估强化学习算法在动态实际环境中的应用,并演示了无模型强化学习算法合成复杂行为的能力。同时探讨了离线强化学习在数据高效假设测试中的作用,这些见解将支持开发可应用于复杂动态系统的系统化强化学习算法。
完成下面两步后,将自动完成登录并继续当前操作。