小红花·文摘

本研究通过优化问题将上下文马尔可夫决策过程中的迁移学习问题转化为因果效应识别问题，并通过线性规划获得因果模型和因果边界。实验证明因果增强算法优于传统方法，收敛速度更快。

有界契约是否可学习和近似最优？

BriefGPT - AI 论文速递 ·

本研究通过优化问题将上下文马尔可夫决策过程中的迁移学习问题转化为因果效应识别问题，并通过线性规划获得因果模型和因果边界。采样算法提供了适宜的收敛结果，将因果边界应用于贝叶斯增强算法，改善了函数空间依赖性。证明了因果增强算法优于传统贝叶斯增强算法，实现了更快的收敛速度。模拟实验证明了该策略在数据稀缺且成本高昂的应用中提高了性能。

随机偏袒监控的随机置信界限

BriefGPT - AI 论文速递 ·

该论文研究了在线性函数逼近模型下上下文马尔可夫决策过程（CMDPs）的性质和算法，并证明了其在样本复杂度方面的优越性。比较结果显示，上下文变化的特征在线性CMDPs中具有更好的样本效率。

线性情境马尔可夫决策过程的样本复杂度刻画

BriefGPT - AI 论文速递 ·

本研究通过优化问题将上下文马尔可夫决策过程中的迁移学习问题转化为因果效应识别问题，并通过线性规划获得因果模型和因果边界。实验证明该方法在函数逼近任务中处理上下文分布，改善了对函数空间大小的依赖性。因果增强算法优于传统贝叶斯增强算法，收敛速度更快。模拟实验证明了该策略在数据稀缺且成本高昂的实际应用中提高了上下文马尔可夫决策过程的性能。

未知上下文分布的上下文强化学习的最优交叉学习

BriefGPT - AI 论文速递 ·

本文研究了上下文马尔可夫决策过程中的迁移学习问题，并通过优化问题将其转化为因果效应的识别问题。通过线性规划求解得到因果模型，并考虑估计误差得到因果边界。采样算法提供了适宜的采样分布的收敛结果，并将因果边界应用于改进贝叶斯增强算法。与以往文献相比，该方法在函数逼近任务中可以处理一般的上下文分布，改善了对函数空间大小的依赖性。通过模拟实验证明了该方法的高效性和性能提升。

带有侧观测的随机图赌博学习

BriefGPT - AI 论文速递 ·