小红花·文摘

该研究提出了多语言提取式问答基准MLQA，涵盖7种语言，旨在推动跨语言问答研究。通过翻译SQuAD 2.0数据集，开发了印地语和马拉地语的问答数据集，解决了数据稀缺问题。此外，研究介绍了MahaSQuAD和BEnQA数据集，探讨了机器翻译质量评估及其与人工评分的相关性，强调了针对低资源语言的模型优化和评估方法的重要性。