月光:用于实时转录和语音命令的语音识别
原文中文,约300字,阅读约需1分钟。发表于: 。本研究提出了Moonshine,一种针对实时转录和语音命令处理优化的语音识别模型。该模型基于编码器-解码器变换器架构,采用旋转位置嵌入(RoPE),提高了推理时的编码效率。研究发现,与OpenAI的Whisper tiny.en相比,Moonshine Tiny在转录10秒语音时减少了五倍的计算需求,而错误率没有增加,展示了其在实时和资源受限应用中的潜力。
本研究介绍了Moonshine,一种优化实时语音识别的模型。基于编码器-解码器架构,使用旋转位置嵌入(RoPE)提高效率。与OpenAI的Whisper tiny.en相比,Moonshine Tiny在转录10秒语音时计算需求减少五倍,且错误率不增加,适合实时和资源受限应用。