小红花·文摘

随着医疗信息化的发展，MMed-Llama 3等医疗大模型应运而生，支持多语言问答，提升医患沟通。MMedC语料库包含255亿tokens，覆盖六种语言，帮助缓解语言障碍。研究成果发表于《Nature Communications》。

医疗领域基准测试超越Llama 3、接近GPT-4，上海交大团队发布多语言医学大模型，覆盖6国语言

HyperAI超神经 ·

本文介绍了多语言问答系统的研究进展，提出了多个支持低资源语言的QA任务的数据集，如MKQA、GermanQuAD和MultiNativQA。研究表明，现有模型在低资源语言上的表现仍不足，强调了数据集质量和多样性的重要性，并提出了改进建议。

多语言非事实类问答与银答案

BriefGPT - AI 论文速递 ·

本文介绍了多语言问答（QA）研究的进展，提出了MKQA、MLQA和xGQA等评估基准和方法，旨在提升低资源语言的QA性能。研究探讨了跨语言模型转移、数据增强和多文档利用等技术，展示了在多语言环境下的有效性与挑战。

M2QA：多领域多语言问答

BriefGPT - AI 论文速递 ·

该研究提出了多语言提取式问答基准MLQA，涵盖7种语言，旨在推动跨语言问答研究。通过翻译SQuAD 2.0数据集，开发了印地语和马拉地语的问答数据集，解决了数据稀缺问题。此外，研究介绍了MahaSQuAD和BEnQA数据集，探讨了机器翻译质量评估及其与人工评分的相关性，强调了针对低资源语言的模型优化和评估方法的重要性。

Suvach -- 生成的印地语 QA 基准

BriefGPT - AI 论文速递 ·