小红花·文摘

该研究提出了一种新的动作框架，将会话代理的动作空间视为潜在变量，并开发无监督的方法从数据中诱导其自己的动作空间。实验结果表明，该方法在 DealOrNoDeal 和 MultiWoz 对话上实现了更好的实证绩效改进。