💡
原文中文,约2600字,阅读约需7分钟。
📝
内容提要
摩尔线程开源了音频理解大模型MooER,支持中英文语音识别和中译英语音翻译。MooER-5K在测试中表现优异,特别是在Covost2中译英测试集上,BLEU分数达到25.2。模型结构包括Encoder、Adapter和Decoder三个部分。训练过程中使用了自研的夸娥智算平台和DeepSpeed框架。MooER与其他开源模型相比效果更优。文章提供了一些有关Encoder选择、音频建模粒度和快速适应到目标垂类的建议。
🎯
关键要点
- 摩尔线程开源了音频理解大模型MooER,支持中英文语音识别和中译英翻译。
- MooER-5K在Covost2中译英测试集上取得了25.2的BLEU分数,表现优异。
- 模型结构包括Encoder、Adapter和Decoder三个部分,使用了自研的夸娥智算平台和DeepSpeed框架进行训练。
- MooER与其他开源模型相比,效果更优,尤其在CER和WER指标上表现突出。
- 训练数据MT5K由部分开源数据和内部数据构成,伪标签未经过人工筛选。
- 对Encoder的选择、音频建模粒度和快速适应目标垂类提供了建议。
- 采用LoRA技术更新LLM参数可加快训练收敛并提升效果。
- 摩尔线程将持续为开源社区贡献,欢迎关注其进展。
➡️