小红花·文摘

评估数据质量在双语语言模型训练中的作用

Apple Machine Learning Research ·

利用音视频数据缩小自监督语音模型中的多语言差距

Apple Machine Learning Research ·

本研究提出了一种新方法，通过将阿拉伯语注入以英语为主的小型开源模型，成功训练出Kuwain 1.5B模型。该模型在阿拉伯语性能上平均提升8%，为双语模型训练提供了高性价比的解决方案。

Kuwain 1.5B: Building an Arabic SLM through Language Injection

BriefGPT - AI 论文速递 ·

该研究介绍了M3LS数据集，包含超过一百万篇BBC新闻文章，跨20种语言，旨在评估多语言多模态摘要技术。同时，研究提出了MM-Soc基准，评估多模态大型语言模型在社交媒体内容理解上的能力，发现模型在社交理解方面需改进。此外，研究构建了91K的多语言训练数据集，并开发了表现优异的双语多模态模型。

mOSCAR：一个大规模的多语言和多模态的文档级语料库

BriefGPT - AI 论文速递 ·

本报告介绍了OpenBA，一个开源的150亿双语不对称seq2seq模型，展示了其在多个基准测试中的优越性能。通过三阶段训练策略和有效技术，OpenBA在资源有限的情况下表现出色。此外，Baichuan 2系列模型在公共基准测试中表现优异，尤其在医学和法律领域。研究还提出了多语言LLM压缩方法，以改善低资源语言的性能。

OpenBA-V2：使用快速多阶段剪枝达到 77.3% 的高压缩比

BriefGPT - AI 论文速递 ·