该研究提出了一种新的动作框架,将会话代理的动作空间视为潜在变量,并开发无监督的方法从数据中诱导其自己的动作空间。实验结果表明,该方法在 DealOrNoDeal 和 MultiWoz 对话上实现了更好的实证绩效改进。
完成下面两步后,将自动完成登录并继续当前操作。