本研究探讨了双语语言模型中数据质量对性能的影响,发现数据质量不均是导致性能下降的主要原因。我们提出了一种数据过滤策略,选择高质量的双语训练数据,应用于法语、德语和中文,提升了单语性能2-4%,并将双语模型性能差距缩小至1%。这强调了多语言预训练中数据质量的重要性。
本文探讨了通过引入有限视觉信息来减少自监督语音模型在多语言环境中的性能差距。研究表明,视觉信息对单语和双语模型均有益,尤其是双语模型的表现显著提升,零样本音素区分的多语言性能差距从31.5%降至8.04%。
本研究提出了一种新方法,通过将阿拉伯语注入以英语为主的小型开源模型,成功训练出Kuwain 1.5B模型。该模型在阿拉伯语性能上平均提升8%,为双语模型训练提供了高性价比的解决方案。
该研究介绍了M3LS数据集,包含超过一百万篇BBC新闻文章,跨20种语言,旨在评估多语言多模态摘要技术。同时,研究提出了MM-Soc基准,评估多模态大型语言模型在社交媒体内容理解上的能力,发现模型在社交理解方面需改进。此外,研究构建了91K的多语言训练数据集,并开发了表现优异的双语多模态模型。
本报告介绍了OpenBA,一个开源的150亿双语不对称seq2seq模型,展示了其在多个基准测试中的优越性能。通过三阶段训练策略和有效技术,OpenBA在资源有限的情况下表现出色。此外,Baichuan 2系列模型在公共基准测试中表现优异,尤其在医学和法律领域。研究还提出了多语言LLM压缩方法,以改善低资源语言的性能。
完成下面两步后,将自动完成登录并继续当前操作。