本研究探讨了用户目标与隐性需求之间的差距,提出了一种在马尔可夫决策过程中识别瓶颈状态的查询策略,以推断潜在目标所需的最小查询数。实证评估表明,该方法在不同任务中有效推断未明确说明的目标。
该论文介绍了DSR,即在深度强化学习框架中推广SR,通过奖励预测和继任者映射的分解提高了对远程奖励变化的灵敏度,并能够从继任者地图中提取瓶颈状态。该方法在网格世界和Doom游戏引擎中展示了有效性。
完成下面两步后,将自动完成登录并继续当前操作。