小红花·文摘

阿里达摩院开源了大型语音识别工具包FunASR，核心模型Paraformer经过60,000小时的普通话语音数据训练，具备高精度识别能力。该工具包还包括语音活动检测和文本后处理模型，性能优于Whisper，适用于长音频识别服务。

funasr语音识别，支持cpu - 乂墨EMO

博客园 - 乂墨EMO ·

开源上新｜FunASR多语言离线文件转写软件包

实时互动网 ·

最近在做大模型相关的项目，其中有个模块需要提取在线视频语音为文本并输出给用户。通过调研和实践，成功实现了抓取在线视频、视频转语音和语音转文本的功能。具体实现方案包括使用selenium提取网页中的视频、使用FFmpeg将视频分割为音频文件以及使用funasr进行语音转文本。最终能够在本地电脑实现抓取在线视频并提取视频语音为文本。

Java实现抓取在线视频并提取视频语音为文本

京东科技开发者 ·

中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

刘悦 ·