研究提出了流式语音识别的“decoder-only”模型,使用适配器和边界令牌来提升模型性能。实验结果表明,该模型在中文语音识别任务中取得了较好的性能。
阿里的FunAsr对Whisper中文领域的转写能力造成挑战,但通过中文文本标注优化,Whisper可以斗过FunAsr。使用transformers库可以提高中文识别准确度和效率。BELLE-2/Belle-whisper-large-v2-zh模型微调提升中文语音识别能力。通过标点模型对转写文本加标点是另一解决方案。Whisper开源模型通过transformers微调提高中文NLP性能。
阿里达摩院自研的FunAsr是一款中文语音识别技术,与OpenAi的Whisper相媲美。FunAsr基于Paraformer非自回归端到端模型,具有高精度、高效率、便捷部署的优点,支持标点符号识别、低语音识别、音频-视觉语音识别等功能。通过对比测试,FunAsr在中文语音转写方面表现优秀,几乎每一条素材都进行了标注。与Whisper相比,FunAsr的模型参数更多,训练数据更丰富,因此在中文领域的语音识别效果更好。
OpenAI发布了语音转文本模型Whisper,可本地离线运行,识别效果超过国内许多大厂中文语音识别产品。使用Whisper配合ChatGPT可进行纠正,方便生成字幕,完全免费。
完成下面两步后,将自动完成登录并继续当前操作。