IndoToD: 一个用于端到端任务导向对话系统的多领域印尼语基准数据集
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了多语言任务导向对话(ToD)数据集的现状和限制,并推出了一个创新的多语言、多领域、多平行 ToD 数据集 Multi3WOZ,以便训练和评估多语言和跨语言的 ToD 系统。该数据集具有大规模、文化适应性强等特点,并提供了不同 ToD 相关任务的基准分数。
🎯
关键要点
- 创造高质量的任务导向对话(ToD)注释数据面临诸多挑战。
- 现有的多语言ToD数据集存在限制,如基于翻译的非母语对话和缺乏文化适应性。
- 本文推出了Multi3WOZ,一个创新的多语言、多领域、多平行ToD数据集。
- Multi3WOZ具有大规模和文化适应性强的特点。
- 该数据集支持训练和评估多语言和跨语言的ToD系统。
- 描述了复杂的自下而上的数据收集过程。
- 提供了不同ToD相关任务的基准分数,突出了数据集的挑战性特点。
➡️