小红花·文摘 - 小红花技术领袖俱乐部

阿里发布 Fun-ASR-Realtime 实时语音识别模型，支持16种方言和30种语言！

阿里发布 Fun-ASR-Realtime 实时语音识别模型，支持16种方言和30种语言！

实时互动网 ·

模型上新：阿里推出 Fun-ASR-Flash，从“听清楚”走向“听明白”

模型上新：阿里推出 Fun-ASR-Flash，从“听清楚”走向“听明白”

实时互动网 ·

如何使用 NVIDIA Canary-1B-v2 在 Python 中实现 ASR、翻译和自动 SRT 字幕导出

如何使用 NVIDIA Canary-1B-v2 在 Python 中实现 ASR、翻译和自动 SRT 字幕导出

实时互动网 ·

AI 语音聊天机器人背后是怎么实现的，是 ASR + LLM + TTS 串起来吗，延迟怎么压下去

AI 语音聊天机器人背后是怎么实现的，是 ASR + LLM + TTS 串起来吗，延迟怎么压下去

实时互动网 ·

如何训练AI语音开发模型？从数据准备到三层优化的实操路径

如何训练AI语音开发模型？从数据准备到三层优化的实操路径

实时互动网 ·

哪些AI语音开发平台收费低？了解最省钱的选型组合

哪些AI语音开发平台收费低？了解最省钱的选型组合

实时互动网 ·

NVIDIA 发布 Nemotron 3.5 ASR：一个拥有 6 亿参数、支持缓存的流式转录模型，可实时转录 40 种语言区域设置

NVIDIA 发布 Nemotron 3.5 ASR：一个拥有 6 亿参数、支持缓存的流式转录模型，可实时转录 40 种语言区域设置

实时互动网 ·

ZEGO 实时互动 AI Agent 2.12 版本发布，新增多家 ASR 厂商和模型等功能

ZEGO 实时互动 AI Agent 2.12 版本发布，新增多家 ASR 厂商和模型等功能

实时互动网 ·

云知声 U2-ASR 2.5上线：覆盖七大方言体系，支持100种以上方言及地方口音识别转写

云知声 U2-ASR 2.5上线：覆盖七大方言体系，支持100种以上方言及地方口音识别转写

实时互动网 ·

MiMo-V2.5-TTS-Series + ASR 正式发布

MiMo-V2.5-TTS-Series + ASR 正式发布

小米云技术 ·

低延迟、多语种、轻量化，Voxtral Realtime 打破 ASR 全场景桎梏；可穿戴设备设计福音！Antenna Performance 构建天线性能与故障数据集

低延迟、多语种、轻量化，Voxtral Realtime 打破 ASR 全场景桎梏；可穿戴设备设计福音！Antenna Performance 构建天线性能与故障数据集

HyperAI超神经 ·

阿里开源的Qwen3-ASR语音识别模型支持52种语言，能快速准确识别饶舌歌曲，处理5小时音频仅需10秒，适合AI硬件部署，开发者可免费下载使用。

千问语音识别模型Qwen3-ASR开源！饶舌RAP歌曲也能轻松识别

量子位 ·

微软发布 VibeVoice-ASR：一种统一的语音转文本模型，旨在一次性处理长达 60 分钟的音频

微软发布 VibeVoice-ASR：一种统一的语音转文本模型，旨在一次性处理长达 60 分钟的音频

实时互动网 ·

低延迟实时语音识别（ASR）模型部署实践与选型

低延迟实时语音识别（ASR）模型部署实践与选型

亚马逊AWS官方博客 ·

NVIDIA AI 发布 Nemotron Speech ASR：全新的开源实时转录模型

NVIDIA AI 发布 Nemotron Speech ASR：全新的开源实时转录模型

实时互动网 ·

GLM ASR试用

年华转瞬 ·

Meta AI 发布 Omnilingual ASR：一套支持1600 多种语言的开源语音识别模型

Meta AI 发布 Omnilingual ASR：一套支持1600 多种语言的开源语音识别模型

实时互动网 ·

阿里推出 FunAudio-ASR：解决语音大模型企业落地的“最后一公里”

阿里推出 FunAudio-ASR：解决语音大模型企业落地的“最后一公里”

实时互动网 ·

TwinMind 推出 Ear-3 语音识别模型，现有 ASR 解决方案竞争的有力产品

TwinMind 推出 Ear-3 语音识别模型，现有 ASR 解决方案竞争的有力产品

实时互动网 ·

Qwen3-ASR：阿里基于 Qwen3-Omni 构建的全新语音识别模型，实现更强大的语音识别性能

Qwen3-ASR：阿里基于 Qwen3-Omni 构建的全新语音识别模型，实现更强大的语音识别性能

实时互动网 ·