小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
低延迟、多语种、轻量化,Voxtral Realtime 打破 ASR 全场景桎梏;可穿戴设备设计福音!Antenna Performance 构建天线性能与故障数据集

Mistral AI于2026年2月开源了Voxtral Mini 4B Realtime 2602模型,支持13种语言的实时语音转录,延迟低于500毫秒,适合轻量化应用,并可在边缘计算单元上部署,提升语音识别的精度与效率。

低延迟、多语种、轻量化,Voxtral Realtime 打破 ASR 全场景桎梏;可穿戴设备设计福音!Antenna Performance 构建天线性能与故障数据集

HyperAI超神经
HyperAI超神经 · 2026-03-13T08:23:29Z

阿里开源的Qwen3-ASR语音识别模型支持52种语言,能快速准确识别饶舌歌曲,处理5小时音频仅需10秒,适合AI硬件部署,开发者可免费下载使用。

千问语音识别模型Qwen3-ASR开源!饶舌RAP歌曲也能轻松识别

量子位
量子位 · 2026-01-30T02:48:17Z
微软发布 VibeVoice-ASR:一种统一的语音转文本模型,旨在一次性处理长达 60 分钟的音频

微软推出了VibeVoice-ASR,一个开源的语音转文本模型,支持最长60分钟的音频处理,输出结构化文本,包括“谁”、“何时”、“什么”。该模型允许用户自定义热词,以提高识别准确性,适合会议记录和长时间通话。

微软发布 VibeVoice-ASR:一种统一的语音转文本模型,旨在一次性处理长达 60 分钟的音频

实时互动网
实时互动网 · 2026-01-23T02:19:22Z
低延迟实时语音识别(ASR)模型部署实践与选型

本文探讨了低延迟实时语音识别(ASR)模型的部署与选型,分析了实时ASR的业务需求和技术平台选择。重点比较了Whisper Large-v3 Turbo、Voxtral Mini和NVIDIA Parakeet三种模型的性能,推荐在生产环境中结合NVIDIA推理GPU与SageMaker实时端点,以优化资源利用率和降低成本。

低延迟实时语音识别(ASR)模型部署实践与选型

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-01-21T05:09:40Z
NVIDIA AI 发布 Nemotron Speech ASR:全新的开源实时转录模型

NVIDIA发布了Nemotron语音识别模型,专为低延迟语音助手和实时字幕设计。该模型采用缓存感知的FastConformer编码器和RNNT解码器,支持16 kHz音频,提供多种输入块配置,词错误率在7.2%至7.8%之间,显著提升了并发性和稳定性,适用于实时语音应用。

NVIDIA AI 发布 Nemotron Speech ASR:全新的开源实时转录模型

实时互动网
实时互动网 · 2026-01-08T02:51:11Z
GLM ASR试用

作者使用GLM ASR替代OpenAI的murmur进行语音转文本,发现GLM在中英混合语句识别上表现更佳,尽管对OpenAI的依赖令人不满,但GLM的识别率和输出质量令人满意。最终,作者修改了murmur代码以使用GLM ASR。

GLM ASR试用

年华转瞬
年华转瞬 · 2026-01-06T22:43:00Z
Meta AI 发布 Omnilingual ASR:一套支持1600 多种语言的开源语音识别模型

Meta AI 发布了 Omnilingual ASR,这是一个开源语音识别系统,支持1600多种语言,并能通过少量示例扩展到新语言。该系统基于大规模的 wav2vec 2.0 编码器,具备高效的零样本学习能力,78% 的语言字符错误率低于 10%。

Meta AI 发布 Omnilingual ASR:一套支持1600 多种语言的开源语音识别模型

实时互动网
实时互动网 · 2025-11-12T02:04:32Z
阿里推出 FunAudio-ASR:解决语音大模型企业落地的“最后一公里”

阿里推出的FunAudio-ASR语音识别大模型解决了“幻觉”和“串语种”等问题,通过Context增强模块提升了识别准确率,尤其在高噪声环境和专业术语识别方面表现优异,适用于多种企业场景。

阿里推出 FunAudio-ASR:解决语音大模型企业落地的“最后一公里”

实时互动网
实时互动网 · 2025-09-16T03:53:31Z
TwinMind 推出 Ear-3 语音识别模型,现有 ASR 解决方案竞争的有力产品

加州初创公司TwinMind推出了Ear-3语音识别模型,单词错误率为5.26%,说话人分类错误率为3.8%,支持140多种语言,转录成本仅为每小时0.23美元。该模型需云部署,注重隐私保护,适用于法律和医疗等领域,可能改变高端转录服务的预期。

TwinMind 推出 Ear-3 语音识别模型,现有 ASR 解决方案竞争的有力产品

实时互动网
实时互动网 · 2025-09-12T02:29:02Z
Qwen3-ASR:阿里基于 Qwen3-Omni 构建的全新语音识别模型,实现更强大的语音识别性能

阿里云推出Qwen3-ASR Flash,一体化自动语音识别模型,支持11种语言的自动识别与转录,具备上下文注入和强大的音频处理能力,适用于教育、媒体和客户服务等领域,词错误率低于8%,易于部署。

Qwen3-ASR:阿里基于 Qwen3-Omni 构建的全新语音识别模型,实现更强大的语音识别性能

实时互动网
实时互动网 · 2025-09-11T02:30:25Z

At Interspeech 2025, Bloomberg's AI engineers explore how they adapted OpenAI's Whisper system into a true streaming automatic speech recognition (ASR) model that delivers real-time CPU...

Bloomberg’s AI Researchers Turn Whisper into a True Streaming ASR Model at Interspeech 2025

Bloomberg L.P.
Bloomberg L.P. · 2025-08-18T22:45:58Z
avr-infra:基于 Asterisk 集成 Core、ASR、LLM 和 TTS 开源服务

Agent Voice Response (AVR) 是一个基于 Asterisk 的可部署对话式 AI 系统,支持灵活选择 ASR、LLM 和 TTS 服务。通过 Docker 启动 AVR 应用,管理客户与 VoIP PBX 的交互,实现语音转文本、AI 响应生成和文本转语音。该系统架构模块化,易于扩展和配置,支持实时音频流。

avr-infra:基于 Asterisk 集成 Core、ASR、LLM 和 TTS 开源服务

实时互动网
实时互动网 · 2025-08-18T02:46:46Z
Mistral Voxtral是OpenAI Whisper及其他ASR工具的开放权重竞争者

Mistral发布了Voxtral,一个大型语言模型,旨在提升语音识别能力,超越简单转录。Voxtral Mini和Small两个版本的模型权重已开放。该模型结合了传统ASR系统的高效转录与LLM的语义理解,支持多种语言,具有32K的上下文,能处理长达30分钟的音频,适用于企业客户的多种高级功能。

Mistral Voxtral是OpenAI Whisper及其他ASR工具的开放权重竞争者

InfoQ
InfoQ · 2025-07-23T08:00:00Z
NVIDIA AI 发布 Canary-Qwen-2.5B:一款先进的 ASR-LLM 混合模型,在 OpenASR 排行榜上拥有 SoTA 性能

NVIDIA发布了Canary-Qwen-2.5B模型,词错率为5.63%,在Hugging Face OpenASR中排名第一。该模型结合了自动语音识别和语言模型,支持音频摘要和问答,适用于多个行业,具有商业和开源特性。

NVIDIA AI 发布 Canary-Qwen-2.5B:一款先进的 ASR-LLM 混合模型,在 OpenASR 排行榜上拥有 SoTA 性能

实时互动网
实时互动网 · 2025-07-18T02:25:48Z
Verbit 推出用于 ASR 直播字幕的说话人识别技术

AI语音转录平台Verbit更新了Captivate ASR解决方案,能够识别自动字幕中的特定发言者特征,从而提供清晰的说话者字幕。该技术适用于新闻、天气和体育直播,提升实时字幕的准确性和清晰度。

Verbit 推出用于 ASR 直播字幕的说话人识别技术

实时互动网
实时互动网 · 2025-06-16T02:38:47Z
基于 Amazon Nova 实现优化呼叫中心导航场景

传统呼叫中心的按键导航复杂,影响用户体验。半开放式语音导航通过关键词匹配提升体验。本文探讨利用Amazon Bedrock和Nova模型进行关键词匹配,解决ASR准确性和发音差异等挑战,并介绍离线处理与在线推理方案。未来将关注Speech to Speech模型的应用。

基于 Amazon Nova 实现优化呼叫中心导航场景

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-06-10T03:17:33Z
移动游戏迎来重大提升,Arm的新ASR技术解析(错过此更新的朋友们)

Arm在2025年GDC上推出了针对移动游戏的准确度超分辨率(ASR)技术。这种时间上采样技术通过降低分辨率渲染和提升帧数,节省GPU使用和电池寿命,同时保持视觉清晰。ASR支持Unreal Engine 5.3-5.5,并已开源。

移动游戏迎来重大提升,Arm的新ASR技术解析(错过此更新的朋友们)

DEV Community
DEV Community · 2025-05-21T07:01:51Z
NVIDIA 开源 Parakeet TDT 0.6B:打造自动语音识别 ASR 全新标准,一秒转录一小时音频

NVIDIA 发布了 Parakeet TDT 0.6B,这是一款开源的自动语音识别模型,拥有6亿参数和3386倍实时因子,具备快速转录和高准确率,支持歌曲转录、时间戳和标点恢复,适合企业级应用,推动语音AI发展。

NVIDIA 开源 Parakeet TDT 0.6B:打造自动语音识别 ASR 全新标准,一秒转录一小时音频

实时互动网
实时互动网 · 2025-05-06T08:34:13Z

本研究评估了自动语音识别(ASR)中的置信度分数在错误检测中的有效性。尽管置信度分数与转录准确性相关,但在检测错误时表现有限,常常漏检或误报。研究建议采用更复杂的方法以提高用户交互和ASR结果的可解释性。

Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

本研究提出了一种变分贝叶斯推断框架(VINP),旨在解决混响语音信号的去混响和盲室冲激响应(RIR)识别问题。通过结合深度神经网络预测先验分布,显著提升了自动语音识别(ASR)和盲RIR识别的性能。

VINP:使用神经语音先验的变分贝叶斯推断用于联合ASR有效的语音去混响和盲RIR识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码