打开黑盒子:基于步骤的策略更新用于有时间相关性的情节式强化学习
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究提出了一个逐步扩展解释时间事件发生的框架,通过建模和学习优化规则内容和权重,以提高事件序列的似然性。研究使用连续优化方法和神经搜索策略,在医疗数据集上取得了有前景的结果。
🎯
关键要点
- 提出了一个逐步扩展解释性时间逻辑规则集的框架。
- 通过建模和学习优化规则内容和权重,提高事件序列的似然性。
- 算法通过更新当前规则集的权重和搜索新规则来增加似然性。
- 主问题被定义为凸问题,使用连续优化方法求解。
- 子问题需要在庞大的组合规则谓词和关系空间中进行搜索。
- 提出了一种神经搜索策略,通过学习生成新规则内容的动作。
- 策略参数使用强化学习框架进行端到端训练,奖励信号通过评估子问题目标查询。
- 在合成和真实的医疗数据集上评估方法,取得了有前景的结果。
➡️