标签

 强化学习 

相关的文章:

本列表页提供了关于强化学习的模型与算法研究的综述,包括多智能体强化学习、离线强化学习等内容。

BriefGPT - AI 论文速递 -

可解释的脑启发表示提高视觉导航任务中的强化学习性能

通过慢特征分析方法生成可解释的视觉数据表征,以确定环境中代理的位置和航向,并展示在导航任务中分层慢特征分析法如何优于其他特征提取器。

数据驱动方法在机器人控制领域快速发展,但在未知任务领域的泛化仍是挑战。研究发现,深度和语义信息的表示可用于视觉导航,并提高控制策略在不同环境中的泛化能力。表示还减小了训练和测试领域之间的距离,改善了泛化误差。方法可通过预训练吸收更多数据来扩展和改进学习策略。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

CovRL: 采用覆盖率引导的强化学习为基础的模糊测试 JavaScript 引擎

本文提出了一种称为 CovRL(基于覆盖引导强化学习)的新技术,通过将大型语言模型(LLMs)与来自覆盖反馈的强化学习相结合,将覆盖引导直接集成到语言模型中,以改进漏洞检测效果,并在 V8 JavaScript 引擎中发现了 48 个真实世界相关安全漏洞。

SecRepair是一个多用途的代码漏洞分析系统,利用CodeGen2语言模型帮助开发人员识别和生成修复后的代码,并提供漏洞描述和代码评论。研究结果表明,结合增强学习和语义奖励机制可以提高模型在处理代码漏洞方面的能力和效果。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

以强化学习为简明替代预测级联:基于图像分割的案例研究

深度学习和计算机视觉中,级联架构对执行资源受限的环境不可行,PaSeR 是一个代替级联架构的计算成本感知学习流程,通过实验评估表明,相对于级联模型,PaSeR 在减少计算成本的同时实现更佳的准确性,且在 IoU/GigaFlop 指标下对电池材料相分割任务具有最小 174% 的性能提升和对噪声 MNIST 数据集的最小 13.4% 的性能提升。

该论文提出了一个基于元学习近似概率推理的学习框架VERSA,使用摊销网络构造了一个不同于传统优化的前向传递框架。该方法在评估中表现出色,能够处理任意数量的FEL-SHOT和分类任务。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

通过策略空间中的最优传输测量强化学习中的探索

量化和比较强化学习算法通过知识传递在探索和学习方面的努力,并使用基于最优输运的度量方法比较强化学习和监督学习算法在数据分布空间中的路径总长度,从而提供有关强化学习算法的探索行为的洞见并比较不同算法的探索行为。

该论文提出了一种基于最优传输理论的风险感知强化学习框架,通过修改目标函数平衡风险考虑和传统强化学习目标。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

带有延迟反馈的强化学习优化中的改进后悔度

我们研究了具有延迟反馈的强凸波段优化问题,通过精细地利用延迟波段反馈的阻塞更新机制,我们的算法改进了损失边界并将其与延迟设置下的传统波段梯度下降(BGD)算法相匹配。

本文介绍了一种在线牛顿步骤算法,适用于广泛实际损失函数。研究了二阶赌博算法在具有仿射结构的损失函数中的应用。解决了赌博LQR/LQG问题。证明了BCO与内存问题更难,给出了遗憾界的下界。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

使用神经微分方程和强化学习的托卡马克放电阶段的主动干扰避免和轨迹设计

通过混合物理学和机器学习模型,在训练环境中使用增强学习,成功地降低等离子体电流同时避免干扰,为托卡马克等离子体研究提供安全可靠的路径。

该研究使用西门子公司提供的热力学软件,通过模拟不确定性,实施了三种深度强化学习算法来处理燃气轮机调度问题。其中,深度 Q 网络(DQN)获得了最高奖励,近端策略优化(PPO)是最高效的方法。还提出了一种动态分配燃气轮机运行和维护成本的方法,更好地近似了现代燃气轮机调度的真实成本。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

基于模型的均场博弈强化学习并不比单智能体强化学习更难统计

通过引入局部模型产品逃避维度(P-MBED)概念,提出了一种模型消除算法,并建立了与 P-MBED 多项式相关的样本复杂度结果,从而揭示了在一定假设条件下,学习均场博弈中的纳什均衡不比解决对数数量的单智能体强化学习问题更具统计学挑战。

本文提出了两种方法解决深度强化学习算法在非线性函数逼近下无法处理 mean field games 的问题。第一种方法是通过神经网络将历史数据蒸馏为混合策略,应用于 Fictitious Play 算法。第二种方法是一种基于正则化的在线混合方法,不需要记忆历史数据或先前的评估,可以扩展在线 Mirror Descent 算法。数值实验表明,这些方法有效地解决了各种 mean field games,并且优于文献中的 SotA 基线。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

学做中:带因果感知策略的在线因果强化学习框架

通过引入因果图模型来显式建模状态生成过程,并通过主动干预学习环境,优化衍生目标,提出了一种在探索阶段使用干预进行因果结构学习,然后在开发阶段使用学习到的因果结构进行策略指导的框架。实验结果表明,我们的方法在因果指导的策略学习和因果结构学习的良性循环的推动下,在故障报警环境中有效且稳健,超越了最先进的基准方法。

该研究通过引入因果图模型来建模状态生成过程,并通过主动干预学习环境,优化衍生目标的框架。实验结果表明,该方法在故障报警环境中有效且稳健,超越了最先进的基准方法。

相关推荐 去reddit讨论

热榜 Top10

...
白鲸技术栈
...
Dify.AI
...
eolink
...
观测云
...
LigaAI
...
ShowMeBug
...
天勤数据

推荐或自荐