小红花·文摘

该研究提出了一种基于谱的方法，用于高效恢复矩阵的奇异子空间并实现最小逐项误差。同时，设计了两种充分利用低秩结构的强化学习算法，包括低秩赌博机问题的最小遗憾算法和低秩马尔可夫决策过程中的无奖励 RL 的最佳策略识别算法，两种算法均具有最先进的性能保证。