小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种新方法——蒙特卡洛束搜索(MCBS),结合了束搜索、蒙特卡洛回路和TD3,有效解决了传统方法的探索不足问题。实验结果显示,MCBS在多个基准测试中优于传统TD3。

连续控制中演员-评论家强化学习的蒙特卡洛束搜索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究针对6G网络中虚拟化网络功能(VNF)管理中的服务功能链(SFC)划分问题,提出了一种基于变换器的演员-评论家框架。该方法通过自注意机制有效建模VNF之间的复杂依赖关系,提升了训练的稳定性和收敛性,实验证明该框架在长期接受率、资源利用效率和可扩展性方面超越了现有技术。在6G环境下,为智能网络编排提供了一种可扩展且强大的解决方案。

基于变换器的演员-评论家强化学习用于序列感知的服务功能链划分

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-26T00:00:00Z

本研究提出顾问-演员-评论家(AAC)方法,旨在解决强化学习在高精度控制任务中的稳态误差问题。AAC结合反馈控制理论与强化学习的自适应能力,通过顾问指导演员优化控制行为,从而显著提高目标实现的精度。基准测试结果表明,AAC在高精度任务中优于传统强化学习算法。

顾问-演员-评论家: 消除强化学习控制中的稳态误差

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本研究解决了深度强化学习(RL)在高维数据中信贷分配效率的不足,提出了一种基于去相关反向传播算法的在线去相关新方法。通过将去相关矩阵融入到RL训练流程中,实验结果显示该方法在提高训练速度和奖励表现方面具有显著影响,尤其是在Atari 100k基准测试中,训练时间减少约50%。

去相关软演员评论家:高效深度强化学习的新方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-31T00:00:00Z

本研究提出了一种结合软演员-评论家强化学习与数字孪生技术的方法,以解决智能制造中的适应性控制不足问题。该方法在机器人增材制造中实现了实时过程控制,展现出快速的策略收敛和稳健的任务执行能力,提升了增材制造的自适应实时控制能力。

数字孪生驱动的实时控制在机器人增材制造中的应用:基于软演员-评论家强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z

本研究解决了演员-评论家算法的全局收敛性问题,显著改善了样本复杂性至 $O(\epsilon^{-3})$,超越了现有的局部收敛结果。通过证明评论家采用恒定步长足以确保期望收敛,与传统方法不同,我们的发现为依赖恒定步长的多种算法的实际成功提供了理论支持。

改进的全局收敛性演员-评论家算法的样本复杂性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-11T00:00:00Z

本研究提出了一种基于策略的强化学习方法,用于解决多无人机在未知环境中的探索挑战。该方法结合了近端策略优化和深度卷积神经网络与长短期记忆。实验证明该方法在避免碰撞的同时能够有效完成覆盖任务。

基于策略的演员-评论家强化学习用于多无人机探索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

本文探讨贝叶斯方法在强化学习中的应用,强调其在动作选择和利用先验知识方面的优势。介绍了多种贝叶斯强化学习算法及其性能,提出了基于模型的新算法,强调样本效率和策略优化。这些方法在复杂环境中表现优越,适用于深度强化学习的多个领域。

深度强化学习中的高效探索:一种新颖的贝叶斯演员-评论家算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-19T00:00:00Z

本文研究了熵作为内在奖励在强化学习中的效果,特别是在软性演员-评论家(SAC)方法中。研究表明,熵奖励应谨慎使用,建议将其归一化为零或从策略评估中删除,以提升性能和鲁棒性。通过多项实验,提出的改进方法在多个控制任务中表现优越。

基于最大熵的策略改进演员 - 评论家算法及熵优势估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-25T00:00:00Z

利用演员 - 评论家强化学习技术提高模型预测控制性能,通过演员模型提供初始猜测解以及评论家模型对轨迹进行评估确定最佳控制方案。

AC4MPC: 基于演员 - 评论家强化学习的非线性模型预测控制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-06T00:00:00Z

该研究探讨了将大型语言模型与离线喜好数据进行对齐的挑战,在特别关注强化学习从人类反馈中对齐的条件下。我们提出了一个新的离线偏好优化方法 SPAC,它通过自我对战来实现,灵感来自离线强化学习领域的平均悲观技术,将是第一个可证明且可扩展用于大规模应用的 LLM 对齐方法。我们在一款具有 Open LLM Leaderboard 评估的 7B Mistral...

自博弈对抗评论家:可证明和可扩展的离线对齐语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-06T00:00:00Z

这篇论文介绍了一种名为 Diffusion Actor-Critic(DAC)的方法,用于解决离线强化学习中价值函数过高估计的问题,并通过扩散模型来表示目标策略,进而通过 Kullback-Leibler(KL)约束策略迭代来规范化目标策略。该方法在 D4RL 基准上的实验表明,在几乎所有环境中,其性能优于现有的方法。

扩散演员 - 评论家:将受约束策略迭代形式化为离线强化学习的扩散噪声回归

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-31T00:00:00Z

基于视频 - 语言评论家的奖励模型,可以在现有的跨体现数据上进行训练,使用对比学习和时间排序目标,对来自单独强化学习执行者的行为轨迹进行评分。在 Meta-World 任务中,通过在 Open X-Embodiment 数据上训练奖励模型,实现了比仅稀疏奖励模型更高效的策略训练,尽管存在显著的领域差异。使用 Meta-World...

视频 - 语言评论家:用于语言条件机器人的可转移奖励函数

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-30T00:00:00Z

本文介绍了一种新颖的基于模型的强化学习算法M2AC,该算法通过掩码机制根据模型可信度选择预测,显著提升了连续控制任务的性能。同时,研究了模型在策略优化中的作用,并提出了改进的样本效率方法,展示了在不确定环境下的应用潜力。

信任自信模型 — 不确定性感知策动适应的基于模型的演员 - 评论家算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-29T00:00:00Z

本研究探讨了强化学习中Actor-Critic算法的全局收敛性和最优性,证明了在使用神经网络时,算法以亚线性速率收敛于全局最优策略,并分析了共享神经结构和随机初始化对收敛性的影响,为神经策略梯度方法的优化提供了理论支持。

在线神经演员 - 评论家算法的弱收敛分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-25T00:00:00Z

本研究利用深度强化学习控制器,实现了人形机器人在多种环境下的行走、转弯和爬楼梯等功能,具有强适应性和无需预训练的优点。通过模型预测损失函数,提升了四足机器人步行的样本效率,并结合在线规划和离线学习,提出了混合控制架构,增强了稳健性和脚步精确度。

FootstepNet:一种高效的演员 - 评论家方法,用于快速的在线双足步行脚步规划和预测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-19T00:00:00Z

本文提出了一种新的Mean Actor-Critic(MAC)算法,旨在优化离散动作连续状态的强化学习。该算法通过显式表示所有动作值来减少策略梯度估计的方差,并在多个控制领域和Atari游戏中表现出竞争力。此外,研究探讨了Actor-Critic算法的全局收敛性和最优性,提出了改进的性能界限,并在交通信号控制等应用中展示了其实用性。

通过多层级演员 - 评论家算法在平均奖励强化学习中实现全局最优性无需混合时间预言机

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-18T00:00:00Z

本文对神经网络近似的NAC算法进行了有限时间分析,探讨了神经网络、正则化和优化技术在样本复杂性、迭代复杂性和过度参数化上的作用。熵正则化和平均化通过提供足够的探索避免了过于确定性和严格次优策略。正则化导致了在正则化MDPs中的尖锐样本复杂度和网络宽度,这在策略优化中产生了有利的偏差-方差权衡。全局优化中实现演员神经网络的均匀逼近能力也被发现具有重要性。

ACE:具有因果感知熵调整的离策略演员 - 评论家算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-22T00:00:00Z

自然语言处理社区评估大规模语言模型的生成文本质量,提出了一种名为CritiqueLLM的新型批判生成模型。该模型通过对话提示方法进行评估,结果显示与GPT-4相媲美,尤其在系统级相关性和无参考环境中表现优异。该模型具有可扩展性特性,生成的批评可作为反馈,提高语言模型的生成质量。

CriticBench: 评估大型语言模型作为评论家

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-21T00:00:00Z

贝叶斯强化学习提供了解决不确定性决策问题的方法,但在高维状态转移分布中建模不确定性的计算复杂。本文提出了一种无模型方法,通过贝尔曼算子和贝叶斯探索网络来建模不确定性,并通过变分推断建模知识性不确定性。实验结果表明,该方法可以学习到真正的贝叶斯最优策略。

概率演员 - 评论家:利用 PAC-Bayes 不确定性学习探索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码