子词作为技能:稀疏奖励强化学习的分词器

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

该研究提出了一种新的动作框架,将会话代理的动作空间视为潜在变量,并开发无监督的方法从数据中诱导其自己的动作空间。实验结果表明,该方法在 DealOrNoDeal 和 MultiWoz 对话上实现了更好的实证绩效改进。

🎯

关键要点

  • 该研究提出了一种新颖的潜在动作框架。
  • 将端到端会话代理的动作空间视为潜在变量。
  • 开发了无监督的方法从数据中诱导动作空间。
  • 实验结果表明,该方法在 DealOrNoDeal 和 MultiWoz 对话上表现更好。
  • 所提出的潜在动作比以前的基于单词级策略梯度方法有更好的实证绩效改进。
➡️

继续阅读