小红花·文摘

本研究提出了一种新颖的Lp有界不确定性集合，解决了鲁棒马尔可夫决策过程中的复杂性问题，显著优于传统计算，为非矩形鲁棒MDP的研究奠定了基础。

非矩形 Lp 鲁棒马尔可夫决策过程的双重构造

BriefGPT - AI 论文速递 ·

本文研究了强化学习中的模型鲁棒性，提出了分布鲁棒马尔可夫决策过程框架，并分析了不同不确定性集合下的学习复杂性。研究表明，学习难度与不确定性集合的大小和形状相关。此外，提出了多种算法，包括离线强化学习方法和悲观策略 Q-learning，以提高样本复杂度和策略学习效率。通过数值实验验证了算法的性能和鲁棒性。

离线分布鲁棒线性马尔科夫决策过程的样本复杂度

BriefGPT - AI 论文速递 ·

本文介绍了一种名为SAL的算法，利用异构数据源构建不确定性集合，并针对相关性稳定性进行强鲁棒性优化。该算法在随机梯度优化的情况下证明了可行性，并在模拟和实际数据集上进行了实证研究，验证了其有效性。

通过条件性患病率调整实现鲁棒学习

BriefGPT - AI 论文速递 ·

该研究提出了一种新颖的树度量的不确定性集合，并通过支持上的树结构表明，最大最小鲁棒输运（OT）问题也具有封闭形式的表达式，可以快速计算。同时，研究者还通过负定性来提出正定核并在几个模拟中测试了它们的性能。

带噪声树度量的优化输运

BriefGPT - AI 论文速递 ·