共享记忆感知的开放领域长期对话数据集:基于电影剧本的构建
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
开放领域聊天机器人研究面临短期对话的局限,缺乏对多会话上下文的理解。本文引入了名为Conversation Chronicles的新数据集,包含时间间隔和发言者关系。我们提出的ReBot模型在该数据集上训练,展现出良好的长期上下文理解能力。
🎯
关键要点
- 开放领域聊天机器人研究主要关注短期对话,忽视多会话上下文理解。
- 多会话对话中,时间间隔和发言者关系对上下文理解至关重要。
- 引入了名为Conversation Chronicles的新数据集,包含100万多会话,强调时间间隔和发言者关系。
- Conversation Chronicles中的对话片段经过人工评估,显示出一致性和连贯性。
- 提出了ReBot模型,具有约630M个参数,专注于长期上下文理解。
- ReBot在Conversation Chronicles上训练后,展现出高人类参与度的理解能力。
➡️