MDIW-13:一个新的多语言和多脚本数据库与脚本识别基准
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
mDIA是第一个跨越低至高资源语言的大规模多语言对话生成基准。通过微调mT5和DialoGPT两种预训练模型,作者对46种语言中的真实对话进行了测试,结果显示mT5模型在sacreBLEU和BertScore方面表现更好,但多样性较差。作者希望发布mDIA以促进生成多语言对话的研究,推动语言多样性。
🎯
关键要点
- mDIA是第一个跨越低至高资源语言的大规模多语言对话生成基准。
- 通过微调mT5和DialoGPT两种预训练模型,作者对46种语言中的真实对话进行了基线测试。
- mT5模型在sacreBLEU和BertScore方面表现更好,但在多样性方面表现较差。
- 尽管在少量训练和零样本情况下表现出有希望的结果,但英语和其他语言之间的生成质量仍存在较大差距。
- 作者希望发布mDIA以促进生成多语言对话的研究,推动语言多样性。
➡️