小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

部分可观测性在强化学习中意味着代理只能获取部分状态,导致决策不最优。通过增强状态表示和结合历史观测,可以改善决策。函数逼近器无法存储历史信息,需要特征工程或特殊架构来实现记忆。Sutton指出,函数逼近虽然能简化状态,但无法补全缺失信息,需手动调整状态定义。

Reinforcement-Learning 学习笔记

学习让我快乐
学习让我快乐 · 2026-02-16T16:00:00Z

本研究提出了一种X-KAN方法,通过基于进化规则的机器学习优化多个局部Kolmogorov-Arnold网络,克服了现有神经网络在处理复杂或不连续函数时的局限性。实验结果表明,X-KAN在函数逼近精度上显著优于传统方法,特别适用于复杂函数结构。

X-KAN: Optimizing Local Kolmogorov-Arnold Networks via Evolutionary Rule-Based Machine Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究探讨了受监控的马尔可夫决策过程(Mon-MDPs)中不可观察奖励的问题。通过函数逼近方法,智能体能够从可观察奖励的状态泛化到不可观察奖励的环境状态。为了解决过度泛化导致的奖励错误推断,提出了一种基于奖励不确定性的谨慎策略优化方法。

Generalization in Monitored Markov Decision Processes (Mon-MDPs)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z
ExpRoot+Log:一种线性和通用的函数逼近基础

我们提出了一种新颖的数值方法ExpRoot+Log,用于函数逼近,结合了指数平方根、多项式和对数成分。该方法在平滑、不连续和快速衰减的函数中表现出高精度和高计算效率,优于传统方法,为实用逼近提供了新基准。

ExpRoot+Log:一种线性和通用的函数逼近基础

DEV Community
DEV Community · 2025-05-06T03:23:50Z

本文探讨了在大状态空间环境中执行强化学习的函数逼近问题,重点关注无偏策略学习。研究表明,尽管在复杂环境中无偏策略学习仍然难以处理,但在特定情境(如Block MDPs)下可通过新算法实现有效的策略学习。

环境访问在无偏强化学习中的作用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z
Sigmoid自注意力的理论、分析与最佳实践

本文探讨了变压器架构中的sigmoid注意力机制,证明其为通用函数逼近器,并在训练初期的稳定性上优于softmax注意力。提出的FLASHSIGMOID实现提升了17%的推理速度。实验结果表明,sigmoid注意力在多个领域的表现与softmax相当,提供了最佳实践。

Sigmoid自注意力的理论、分析与最佳实践

Apple Machine Learning Research
Apple Machine Learning Research · 2025-02-10T00:00:00Z

本文研究了ReLU神经网络在Sobolev空间中对正则函数的逼近能力,分析了逼近速率及误差界限。通过深度ReLU网络,证明其能够有效逼近多项式和高维函数,克服维度灾难,并展示超收敛速率。研究探讨了网络宽度和深度对逼近性能的影响,提出了新模型类的定义,强调深度网络在函数逼近中的适应性。

通过拉东变换对Sobolev空间中浅层ReLU$^k$神经网络的近似率研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-20T00:00:00Z

本文研究了强化学习中的函数逼近不稳定问题,提出了一种基于状态表示学习的解决方案,并分析了多种方法的适用性与稳定性。实验表明,随机梯度下降可以提高深度网络的表示学习效果。此外,提出了改进的PPO算法,显著提升了样本效率和性能。研究表明,成功的离线强化学习需要更强的条件。

没有代表,没有信任:连接 PPO 中的代表、崩溃和信任问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-01T00:00:00Z

本文研究了多种神经网络架构,包括Kronecker神经网络、图增强多层感知器(GA-MLP)和求和积网络(SPN)。研究表明,GA-MLP在特定条件下能有效区分非同构图,但其表达能力不及图神经网络(GNN)。Kolmogorov模型展示了深度网络在函数逼近中的优势,提出的无图依赖神经网络(GLNNs)在速度和准确性上优于GNN。

KAN:科尔莫哥洛夫-阿诺德网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-30T00:00:00Z

本文探讨了强化学习中的函数逼近问题,提出了Fitted Q-Iteration算法的边界不变量分析,解决了价值函数定义不唯一的问题,并分析了连续状态-动作空间的收敛性。研究还提出了基于控制理论的价值函数验证方法和新的训练算法Diffused Value Function (DVF),展示了其在机器人基准测试中的有效性。

强化学习和最优控制中价值函数的连续性和光滑性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-21T00:00:00Z

本文研究了离线深度强化学习的机制,发现函数逼近与固定数据分布是其最强因素,为该领域提供了有价值的见解,并解释了在线控制学习中的现象。

主动采样能减少离线强化学习中的因果混淆吗?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-28T00:00:00Z

本研究通过优化问题将上下文马尔可夫决策过程中的迁移学习问题转化为因果效应识别问题,并通过线性规划获得因果模型和因果边界。实验证明该方法在函数逼近任务中处理上下文分布更好,收敛速度更快。模拟实验证明了该策略在数据稀缺且成本高昂的实际应用中提高了性能。

利用混淆和选择偏倚离线数据强化改进赌博算法:一种因果方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-20T00:00:00Z

本文研究了函数逼近的时序差分学习论(TD)可能会收敛至比蒙特卡罗回归更劣的解的问题,以及逼近误差在自举更新中如何进一步扩散的问题。作者证明了泄漏传播的存在,但并不意味着一定会发生,也测试了通过更好的状态表示是否可以缓解这个问题。最后,作者探讨了在无奖励或特权信息的情况下进行学习的可能性。

辨识时差学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-12T00:00:00Z
Remez Algorithm

雷米兹算法是一种数学方法,主要用于函数逼近。它通过优化多项式系数来最小化误差,广泛应用于数值分析和信号处理。

Remez Algorithm

Long Luo's Life Notes
Long Luo's Life Notes · 2023-10-06T23:08:37Z

该论文提出了一种对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的形式化方法,证明了算法的收敛性,并介绍了计算速率。该方法可以推广到多种性能指标,并通过经典库存控制问题进行了实证验证。

随机环境中的凸 Q 学习:扩展版

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-10T00:00:00Z

本研究探讨了函数逼近的时序差分学习论(TD)的问题,发现了泄漏扩散的证据,并证明了只有在逼近误差时才会出现这种情况。通过改进状态表示来缓解问题,并在无奖励或特权信息的情况下进行学习。

时间差分学习中,针对错误设计的奖励的终止状态的故意低估价值函数

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-24T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码