实时互动网 ·

摩尔线程正式开源音频理解大模型MooER

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

摩尔线程开源了音频理解大模型MooER，支持中英文语音识别和中译英语音翻译。MooER-5K在测试中表现优异，特别是在Covost2中译英测试集上，BLEU分数达到25.2。模型结构包括Encoder、Adapter和Decoder三个部分。训练过程中使用了自研的夸娥智算平台和DeepSpeed框架。MooER与其他开源模型相比效果更优。文章提供了一些有关Encoder选择、音频建模粒度和快速适应到目标垂类的建议。

🎯

关键要点

摩尔线程开源了音频理解大模型MooER，支持中英文语音识别和中译英翻译。
MooER-5K在Covost2中译英测试集上取得了25.2的BLEU分数，表现优异。
模型结构包括Encoder、Adapter和Decoder三个部分，使用了自研的夸娥智算平台和DeepSpeed框架进行训练。
MooER与其他开源模型相比，效果更优，尤其在CER和WER指标上表现突出。
训练数据MT5K由部分开源数据和内部数据构成，伪标签未经过人工筛选。
对Encoder的选择、音频建模粒度和快速适应目标垂类提供了建议。
采用LoRA技术更新LLM参数可加快训练收敛并提升效果。
摩尔线程将持续为开源社区贡献，欢迎关注其进展。

❓

延伸问答

MooER模型的主要功能是什么？

MooER模型支持中英文语音识别和中译英的语音翻译。

MooER在Covost2测试集上的表现如何？

MooER-5K在Covost2中译英测试集上取得了25.2的BLEU分数，表现优异。

MooER的模型结构包含哪些部分？

MooER的模型结构包括Encoder、Adapter和Decoder三个部分。

MooER的训练数据来源是什么？

MooER的训练数据MT5K由部分开源数据和内部数据构成，伪标签未经过人工筛选。

MooER与其他开源模型相比有什么优势？

MooER在CER和WER指标上表现突出，效果更优或几乎持平于其他开源模型。

如何提高MooER模型的训练效率？

采用LoRA技术更新LLM参数可以加快训练收敛并提升效果。

🏷️