小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种从稀疏安全反馈中学习安全度量的方法,解决了安全强化学习中安全定义不明确的问题。通过设计安全模型,估计每个决策步骤对整体安全的影响,实证结果表明其在满足未知安全定义方面的有效性,适用于多种连续控制任务。

TraCeS: Trajectory-Based Credit Assignment from Sparse Safety Feedback

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究提出了一种高效的状态表征学习方法,旨在解决安全强化学习中探索与安全约束的平衡问题。通过自编码器和对比学习,显著提升了稀疏奖励环境中的探索效率,同时确保了安全性。

通过对比表征学习增强安全强化学习中的探索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-13T00:00:00Z

本研究提出了一种新方法,通过模仿学习识别共享约束分布,解决了安全强化学习中预定义约束函数适用性差的问题。实验结果表明,该方法在复杂任务中在安全性和样本效率上优于基准方法,具有广泛的适用性。

基于分布信息的安全关键系统多任务约束的自适应学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-30T00:00:00Z

本研究提出Marvel框架,通过价值预对齐和自适应PID控制,解决在线安全强化学习中的高成本和风险问题,提升奖励最大化和安全约束性能,为实用安全RL提供新方法。

Marvel:通过微调离线策略加速安全在线强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z
TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析

本文综述了安全强化学习的现状和未来方向。安全强化学习在传统强化学习中加入安全约束,应用于自动驾驶和机器人等领域。研究方法分为基于模型和无模型,涉及策略优化和控制理论。理论分析关注算法安全性、样本复杂度和收敛性。基准测试环境如AI Safety Gridworlds和Safety Gym用于评估算法性能。未来挑战包括算法扩展性和实时性能。

TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析

机器之心
机器之心 · 2024-10-08T06:15:22Z

本研究探讨了马尔可夫决策过程在强化学习中的作用,研究了与强化学习相关的成本,开发了新的估计器,并提出了安全强化学习研究方法和规划算法。

BAMDP塑形:内在动机与奖励塑形的统一理论框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

本研究提出了一种利用异常状态序列增强强化学习安全性的新方法。通过训练代理收集安全状态序列并建立异常检测模型,有效监督训练具有安全意识的强化学习代理。

增强强化学习中的安全性,通过异常状态序列建模

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-29T00:00:00Z

研究人员提出了一种名为FCSRL的新框架,用于在安全强化学习中增强策略学习和约束估计。实证评估表明,该方法在多种任务中能够学习到更好的安全感知嵌入并取得优越的性能。

安全强化学习的一致性可行性表征学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-20T00:00:00Z

本文提出了一种基于随机模型的方法,几乎确定地保证了强化学习的安全性。通过预测状态表示和再生核希尔伯特空间,对未来的多步观测进行了解析表示,并通过核贝叶斯规则导出了关键操作,可以递归估计未来的观测。建立了多项式样本复杂度,确保了 ε- 次优安全策略保证。

透过部分监督强化学习学习后见可观测部分可解释策略

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-14T00:00:00Z

该文章提出了一个统一安全强化学习和鲁棒强化学习问题的框架,基于两人零和马尔可夫博弈,提出了双重策略迭代方案和深度强化学习算法DRAC。实验结果显示,DRAC在各种情景下表现出高性能和持续的安全性,优于其他基准算法。

长期安全强化学习与二进制反馈

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-08T00:00:00Z

本文介绍了Safety-Gymnasium环境套件和Safe Policy Optimization算法库,包含16种最先进的安全强化学习算法,旨在促进安全性能评估和比较,推动强化学习在更安全、可靠和负责任的实际应用中的发展。

安全体育场:统一的安全强化学习基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-19T00:00:00Z

该文提出了一个框架来统一安全强化学习和鲁棒强化学习的问题,建立在有约束的两人零和马尔可夫博弈上,提出了一种双重策略迭代方案,同时优化任务策略和安全策略。设计了一种用于实际实现的深度强化学习算法 DRAC,安全关键的基准评估表明 DRAC 在所有情景下实现了高性能和持续的安全性,并且明显优于所有基准线。

具有双重鲁棒性的安全强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码