MDDial:一个带可靠性评估的多轮鉴别诊断对话数据集

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

mDIA是第一个跨越低至高资源语言的大规模多语言对话生成基准。通过微调mT5和DialoGPT两种预训练模型,作者对46种语言中的真实对话进行了测试,结果显示mT5模型在sacreBLEU和BertScore方面表现更好,但多样性较差。作者希望发布mDIA以促进生成多语言对话的研究和语言多样性。

🎯

关键要点

  • mDIA是第一个跨越低至高资源语言的大规模多语言对话生成基准。
  • 通过微调mT5和DialoGPT两种预训练模型,作者对46种语言中的真实对话进行了基线测试。
  • mT5模型在sacreBLEU和BertScore方面表现更好,但在多样性方面表现较差。
  • 在少量训练和零样本情况下,生成质量仍存在较大差距,尤其是英语和其他语言之间。
  • 作者希望发布mDIA以促进生成多语言对话的研究和语言多样性。
➡️

继续阅读