小红花·文摘

部分可观测性在强化学习中意味着代理只能获取部分状态，导致决策不最优。通过增强状态表示和结合历史观测，可以改善决策。函数逼近器无法存储历史信息，需要特征工程或特殊架构来实现记忆。Sutton指出，函数逼近虽然能简化状态，但无法补全缺失信息，需手动调整状态定义。

Reinforcement-Learning 学习笔记

学习让我快乐 ·

本研究提出了一种X-KAN方法，通过基于进化规则的机器学习优化多个局部Kolmogorov-Arnold网络，克服了现有神经网络在处理复杂或不连续函数时的局限性。实验结果表明，X-KAN在函数逼近精度上显著优于传统方法，特别适用于复杂函数结构。

X-KAN: Optimizing Local Kolmogorov-Arnold Networks via Evolutionary Rule-Based Machine Learning

BriefGPT - AI 论文速递 ·

本研究探讨了受监控的马尔可夫决策过程（Mon-MDPs）中不可观察奖励的问题。通过函数逼近方法，智能体能够从可观察奖励的状态泛化到不可观察奖励的环境状态。为了解决过度泛化导致的奖励错误推断，提出了一种基于奖励不确定性的谨慎策略优化方法。

Generalization in Monitored Markov Decision Processes (Mon-MDPs)

BriefGPT - AI 论文速递 ·

ExpRoot+Log：一种线性和通用的函数逼近基础

DEV Community ·

本文探讨了在大状态空间环境中执行强化学习的函数逼近问题，重点关注无偏策略学习。研究表明，尽管在复杂环境中无偏策略学习仍然难以处理，但在特定情境（如Block MDPs）下可通过新算法实现有效的策略学习。

环境访问在无偏强化学习中的作用

BriefGPT - AI 论文速递 ·

Sigmoid自注意力的理论、分析与最佳实践

Apple Machine Learning Research ·

本文研究了ReLU神经网络在Sobolev空间中对正则函数的逼近能力，分析了逼近速率及误差界限。通过深度ReLU网络，证明其能够有效逼近多项式和高维函数，克服维度灾难，并展示超收敛速率。研究探讨了网络宽度和深度对逼近性能的影响，提出了新模型类的定义，强调深度网络在函数逼近中的适应性。

通过拉东变换对Sobolev空间中浅层ReLU$^k$神经网络的近似率研究

BriefGPT - AI 论文速递 ·

本文研究了强化学习中的函数逼近不稳定问题，提出了一种基于状态表示学习的解决方案，并分析了多种方法的适用性与稳定性。实验表明，随机梯度下降可以提高深度网络的表示学习效果。此外，提出了改进的PPO算法，显著提升了样本效率和性能。研究表明，成功的离线强化学习需要更强的条件。

没有代表，没有信任：连接 PPO 中的代表、崩溃和信任问题

BriefGPT - AI 论文速递 ·

本文研究了多种神经网络架构，包括Kronecker神经网络、图增强多层感知器（GA-MLP）和求和积网络（SPN）。研究表明，GA-MLP在特定条件下能有效区分非同构图，但其表达能力不及图神经网络（GNN）。Kolmogorov模型展示了深度网络在函数逼近中的优势，提出的无图依赖神经网络（GLNNs）在速度和准确性上优于GNN。

KAN：科尔莫哥洛夫－阿诺德网络

BriefGPT - AI 论文速递 ·

本文探讨了强化学习中的函数逼近问题，提出了Fitted Q-Iteration算法的边界不变量分析，解决了价值函数定义不唯一的问题，并分析了连续状态-动作空间的收敛性。研究还提出了基于控制理论的价值函数验证方法和新的训练算法Diffused Value Function (DVF)，展示了其在机器人基准测试中的有效性。

强化学习和最优控制中价值函数的连续性和光滑性

BriefGPT - AI 论文速递 ·

本文研究了离线深度强化学习的机制，发现函数逼近与固定数据分布是其最强因素，为该领域提供了有价值的见解，并解释了在线控制学习中的现象。

主动采样能减少离线强化学习中的因果混淆吗？

BriefGPT - AI 论文速递 ·

本研究通过优化问题将上下文马尔可夫决策过程中的迁移学习问题转化为因果效应识别问题，并通过线性规划获得因果模型和因果边界。实验证明该方法在函数逼近任务中处理上下文分布更好，收敛速度更快。模拟实验证明了该策略在数据稀缺且成本高昂的实际应用中提高了性能。

利用混淆和选择偏倚离线数据强化改进赌博算法：一种因果方法

BriefGPT - AI 论文速递 ·

本文研究了函数逼近的时序差分学习论（TD）可能会收敛至比蒙特卡罗回归更劣的解的问题，以及逼近误差在自举更新中如何进一步扩散的问题。作者证明了泄漏传播的存在，但并不意味着一定会发生，也测试了通过更好的状态表示是否可以缓解这个问题。最后，作者探讨了在无奖励或特权信息的情况下进行学习的可能性。

辨识时差学习

BriefGPT - AI 论文速递 ·

Remez Algorithm

Long Luo's Life Notes ·

该论文提出了一种对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的形式化方法，证明了算法的收敛性，并介绍了计算速率。该方法可以推广到多种性能指标，并通过经典库存控制问题进行了实证验证。

随机环境中的凸 Q 学习：扩展版

BriefGPT - AI 论文速递 ·

本研究探讨了函数逼近的时序差分学习论（TD）的问题，发现了泄漏扩散的证据，并证明了只有在逼近误差时才会出现这种情况。通过改进状态表示来缓解问题，并在无奖励或特权信息的情况下进行学习。

时间差分学习中，针对错误设计的奖励的终止状态的故意低估价值函数

BriefGPT - AI 论文速递 ·