小红花·文摘

本研究探讨了函数逼近的时序差分学习论（TD）的问题，发现了泄漏扩散的证据，并证明了只有在逼近误差时才会出现这种情况。通过改进状态表示来缓解问题，并在无奖励或特权信息的情况下进行学习。

时间差分学习中，针对错误设计的奖励的终止状态的故意低估价值函数

BriefGPT - AI 论文速递 ·

本文通过分析基于耦合的可逆神经网络（INN）对紧致域上的双 Lipschitz 连续映射的容量，得出同时很好地逼近正向和逆向映射的结论。通过将模型简化、主成分分析和 INN 相结合，提出了一种在无限维空间上同时逼近正向和逆向映射的逼近方法，并分析了该方法的整体逼近误差。初步的数值结果显示该方法在逼近参数化二阶椭圆问题的解算符方面的可行性。

关于逆可逆神经网络逼近双 Lipschitz 映射的研究

BriefGPT - AI 论文速递 ·