IndoToD: 一个用于端到端任务导向对话系统的多领域印尼语基准数据集

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了多语言任务导向对话(ToD)数据集的现状和限制,并推出了一个创新的多语言、多领域、多平行 ToD 数据集 Multi3WOZ,以便训练和评估多语言和跨语言的 ToD 系统。该数据集具有大规模、文化适应性强等特点,并提供了不同 ToD 相关任务的基准分数。

🎯

关键要点

  • 创造高质量的任务导向对话(ToD)注释数据面临诸多挑战。
  • 现有的多语言ToD数据集存在限制,如基于翻译的非母语对话和缺乏文化适应性。
  • 本文推出了Multi3WOZ,一个创新的多语言、多领域、多平行ToD数据集。
  • Multi3WOZ具有大规模和文化适应性强的特点。
  • 该数据集支持训练和评估多语言和跨语言的ToD系统。
  • 描述了复杂的自下而上的数据收集过程。
  • 提供了不同ToD相关任务的基准分数,突出了数据集的挑战性特点。
➡️

继续阅读