Whisper - 蝈蝈俊
原文中文,约3300字,阅读约需8分钟。发表于: 。Whisper 是 OpenAI 公司开源的通用的语音识别模型。(https://github.com/openai/whisper ) 它是在包含各种音频的大型数据集上训练的,是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。 它也是一个针对各种语音处理任务进行训练的 Transfor
Whisper是一种通用语音识别模型,可执行多语言语音识别、语音翻译和语言识别等任务。它基于大型数据集训练的Transformer序列到序列模型,将音频转换为log-Mel频谱图,然后传递到编码器。Whisper有9种模型,开发者可以根据需求在速度和准确性之间进行权衡。