小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

部分可观测性在强化学习中意味着代理只能获取部分状态,导致决策不最优。通过增强状态表示和结合历史观测,可以改善决策。函数逼近器无法存储历史信息,需要特征工程或特殊架构来实现记忆。Sutton指出,函数逼近虽然能简化状态,但无法补全缺失信息,需手动调整状态定义。

Reinforcement-Learning 学习笔记

学习让我快乐
学习让我快乐 · 2026-02-16T16:00:00Z

本研究提出了一种X-KAN方法,通过基于进化规则的机器学习优化多个局部Kolmogorov-Arnold网络,克服了现有神经网络在处理复杂或不连续函数时的局限性。实验结果表明,X-KAN在函数逼近精度上显著优于传统方法,特别适用于复杂函数结构。

X-KAN: Optimizing Local Kolmogorov-Arnold Networks via Evolutionary Rule-Based Machine Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究探讨了受监控的马尔可夫决策过程(Mon-MDPs)中不可观察奖励的问题。通过函数逼近方法,智能体能够从可观察奖励的状态泛化到不可观察奖励的环境状态。为了解决过度泛化导致的奖励错误推断,提出了一种基于奖励不确定性的谨慎策略优化方法。

Generalization in Monitored Markov Decision Processes (Mon-MDPs)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z
ExpRoot+Log:一种线性和通用的函数逼近基础

我们提出了一种新颖的数值方法ExpRoot+Log,用于函数逼近,结合了指数平方根、多项式和对数成分。该方法在平滑、不连续和快速衰减的函数中表现出高精度和高计算效率,优于传统方法,为实用逼近提供了新基准。

ExpRoot+Log:一种线性和通用的函数逼近基础

DEV Community
DEV Community · 2025-05-06T03:23:50Z

本文探讨了在大状态空间环境中执行强化学习的函数逼近问题,重点关注无偏策略学习。研究表明,尽管在复杂环境中无偏策略学习仍然难以处理,但在特定情境(如Block MDPs)下可通过新算法实现有效的策略学习。

环境访问在无偏强化学习中的作用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z

本研究提出了一种新的合理指数激活函数(REAct),旨在提升物理信息神经网络的激活函数灵活性和泛化能力。实验结果显示,REAct在热问题上的均方误差显著降低,并在函数逼近和反问题中表现优异。

REAct:用于提高PINNs学习和泛化能力的合理指数激活函数

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-04T00:00:00Z
Sigmoid自注意力的理论、分析与最佳实践

本文探讨了变压器架构中的sigmoid注意力机制,证明其为通用函数逼近器,并在训练初期的稳定性上优于softmax注意力。提出的FLASHSIGMOID实现提升了17%的推理速度。实验结果表明,sigmoid注意力在多个领域的表现与softmax相当,提供了最佳实践。

Sigmoid自注意力的理论、分析与最佳实践

Apple Machine Learning Research
Apple Machine Learning Research · 2025-02-10T00:00:00Z

本文探讨了参数化量子电路在机器学习中的表达能力,分析其在逼近连续和平滑函数方面的构造及误差界限,并与深度神经网络进行比较,显示出量子电路在高维函数逼近中的潜在优势。

一种量子计算模型的表达能力:基于一比特的确定性量子计算

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

文章讨论了机器学习在函数巴拿赫空间映射中的应用,特别是神经算子。神经算子通过深度神经网络在有限维空间逼近函数,是传统数值方法的高效替代。尽管在多种应用中取得成功,但其理论理解仍不完整。文章总结了神经算子在逼近理论方面的最新进展。

勒雷-肖德映射用于算子学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

本研究通过引入函数逼近和新算法,解决了现有均场博弈算法的局限性,使得去中心化代理能够优化全局经验分布。实验结果显示网络化代理在功能逼近设置中优于独立和集中代理,揭示了通信在均场博弈中的潜在影响。

具有函数逼近和经验平均场估计的均场博弈网络通信

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

该论文概述了神经网络的逼近能力定理,包括函数逼近和通用逼近定理在宽度和深度上的研究。

普适近似定理综述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-17T00:00:00Z

本文研究了离线深度强化学习的机制,发现函数逼近与固定数据分布是其最强因素,为该领域提供了有价值的见解,并解释了在线控制学习中的现象。

主动采样能减少离线强化学习中的因果混淆吗?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-28T00:00:00Z

本研究通过优化问题将上下文马尔可夫决策过程中的迁移学习问题转化为因果效应识别问题,并通过线性规划获得因果模型和因果边界。实验证明该方法在函数逼近任务中处理上下文分布更好,收敛速度更快。模拟实验证明了该策略在数据稀缺且成本高昂的实际应用中提高了性能。

利用混淆和选择偏倚离线数据强化改进赌博算法:一种因果方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-20T00:00:00Z

本文研究了函数逼近的时序差分学习论(TD)可能会收敛至比蒙特卡罗回归更劣的解的问题,以及逼近误差在自举更新中如何进一步扩散的问题。作者证明了泄漏传播的存在,但并不意味着一定会发生,也测试了通过更好的状态表示是否可以缓解这个问题。最后,作者探讨了在无奖励或特权信息的情况下进行学习的可能性。

辨识时差学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-12T00:00:00Z

该论文提出了一种对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的形式化方法,证明了算法的收敛性,并介绍了计算速率。该方法可以推广到多种性能指标,并通过经典库存控制问题进行了实证验证。

随机环境中的凸 Q 学习:扩展版

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-10T00:00:00Z

本研究探讨了函数逼近的时序差分学习论(TD)的问题,发现了泄漏扩散的证据,并证明了只有在逼近误差时才会出现这种情况。通过改进状态表示来缓解问题,并在无奖励或特权信息的情况下进行学习。

时间差分学习中,针对错误设计的奖励的终止状态的故意低估价值函数

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-24T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码