本研究分析用户目标与隐性需求之间的差距,提出了一种查询策略,通过马尔可夫决策过程识别瓶颈状态,有效推断未明确的目标。
该论文介绍了DSR,即在深度强化学习框架中推广SR,通过奖励预测和继任者映射的分解提高了对远程奖励变化的灵敏度,并能够从继任者地图中提取瓶颈状态。该方法在网格世界和Doom游戏引擎中展示了有效性。
完成下面两步后,将自动完成登录并继续当前操作。