阿里达摩院开源了大型语音识别工具包FunASR,核心模型Paraformer经过60,000小时的普通话语音数据训练,具备高精度识别能力。该工具包还包括语音活动检测和文本后处理模型,性能优于Whisper,适用于长音频识别服务。
本文提出了一种基于通用逼近定理的深度学习并行化策略,设计了一个名为Para-Former的并行网络,有效地加快了多层网络的推理速度。
阿里达摩院自研的FunAsr是一款中文语音识别技术,与OpenAi的Whisper相媲美。FunAsr基于Paraformer非自回归端到端模型,具有高精度、高效率、便捷部署的优点,支持标点符号识别、低语音识别、音频-视觉语音识别等功能。通过对比测试,FunAsr在中文语音转写方面表现优秀,几乎每一条素材都进行了标注。与Whisper相比,FunAsr的模型参数更多,训练数据更丰富,因此在中文领域的语音识别效果更好。
完成下面两步后,将自动完成登录并继续当前操作。