JoTR: 对话策略学习的联合 Transformer 和强化学习框架
原文中文,约300字,阅读约需1分钟。发表于: 。使用 JoTR 框架,利用文本到文本的 Transformer 模型生成灵活的对话动作,以解决传统方法中预定义动作候选的不足,从而提高对极限情况的处理能力,并通过强化学习和奖励调整机制有效地优化对话策略。在广泛的评估中,JoTR 在两个基准对话建模任务上展现出卓越的性能。
本文介绍了使用JoTR框架,通过Transformer模型生成灵活的对话动作,解决传统方法中预定义动作候选的不足,并通过强化学习和奖励调整机制优化对话策略。JoTR在两个基准对话建模任务上表现出卓越性能。