小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
微软 Build 2026 大会凸显对话式 AI 的新阶段

在微软Build开发者大会上,微软发布了MAI-Transcribe-1.5语音转文本模型和MAI-Voice-2文本转语音产品,提升了语音识别和合成语音的自然度。同时,微软推出了Project Solara,旨在通过持续在线的AI代理改善用户体验,尽管面临隐私和安全挑战,微软仍致力于将AI更深入地融入日常生活。

微软 Build 2026 大会凸显对话式 AI 的新阶段

实时互动网
实时互动网 · 2026-06-05T06:20:26Z
腾讯云与Soniox建立战略合作伙伴关系,共同助力全球多语言语音AI应用发展

腾讯云与Soniox达成战略合作,结合Soniox的语音转文本技术与腾讯云的实时通信基础设施,支持全球200多个国家的多语言语音AI应用,提升用户体验,适用于智能客服和语音助手等场景,助力企业拓展多语言市场。

腾讯云与Soniox建立战略合作伙伴关系,共同助力全球多语言语音AI应用发展

实时互动网
实时互动网 · 2026-06-03T03:31:38Z
Voice Agents 101: The Architecture Behind AI That Can Converse with Humans

本文探讨了语音智能体的架构,包括语音转文本(STT)、大语言模型(LLM)和文本转语音(TTS)三个阶段。引入音频后,延迟和上下文处理变得复杂。级联模型适合大多数生产环境,而端到端模型在自然对话中更具竞争力。流式传输技术可减少延迟,提升对话自然性。设计中需考虑语音活动检测和话轮管理等技术挑战,以改善用户体验。

Voice Agents 101: The Architecture Behind AI That Can Converse with Humans

Measure Zero
Measure Zero · 2026-05-18T00:00:00Z
通过API中的新模型推动语音智能发展

OpenAI推出了三种音频模型,分别是GPT-Realtime-2(实时对话)、GPT-Realtime-Translate(支持70多种语言的实时翻译)和GPT-Realtime-Whisper(低延迟语音转文本)。这些模型提升了语音交互的智能性和响应能力,适用于客户支持和教育等领域。

通过API中的新模型推动语音智能发展

OpenAI
OpenAI · 2026-05-07T10:00:00Z
xAI推出独立的Grok语音转文本和文本转语音API,目标用户为企业语音开发人员

埃隆·马斯克的 AI 公司 xAI 发布了两款音频 API:语音转文本(STT)和文本转语音(TTS)。STT 支持 25 种语言,提供实时和批量转录,错误率为 5.0%。TTS 支持 20 种语言,提供多种声音选择,定价为每百万字符 4.20 美元。这标志着 xAI 进军语音 API 市场。

xAI推出独立的Grok语音转文本和文本转语音API,目标用户为企业语音开发人员

实时互动网
实时互动网 · 2026-04-20T03:19:00Z
audiov – Linux 下的语音输入法(fcitx5)

audiov是一款基于Rust开发的Linux语音转文本软件,利用whisper进行本地语音识别。它支持离线识别,能将文字直接输入到光标处,并通过全局快捷键操作,提供流畅的输入体验。

audiov – Linux 下的语音输入法(fcitx5)

小众软件
小众软件 · 2026-03-21T08:19:30Z
GStreamer 1.28.1 发布,新增基于 Whisper 的语音转文本功能,并支持 AV1 有状态 V4L2 解码器

GStreamer 1.28.1于2026年2月26日发布,新增语音转文本功能、调试插件和AV1解码器支持,修复多个组件问题,增强音频事件配置及WebRTC流功能,提升安全性和播放性能。

GStreamer 1.28.1 发布,新增基于 Whisper 的语音转文本功能,并支持 AV1 有状态 V4L2 解码器

实时互动网
实时互动网 · 2026-02-27T02:11:14Z
Deepgram 和 IBM 推出面向企业人工智能的高级语音功能

IBM与Deepgram合作,将语音转文本和文本转语音功能集成到watsonx Orchestrate中,以满足企业对高性能转录和实时字幕的需求。这使Deepgram成为IBM首个语音合作伙伴,推动了医疗和金融领域的运营自动化和对话式AI技术的发展。

Deepgram 和 IBM 推出面向企业人工智能的高级语音功能

实时互动网
实时互动网 · 2026-02-25T03:05:28Z
Mistral 发布 Voxtral Transcribe 2,一款成本极低的开源语音模型

总部位于巴黎的Mistral AI推出了两款语音转文本模型,强调快速、准确和低成本,适合处理敏感数据。Voxtral Transcribe 2系列支持本地运行,满足医疗和金融等行业需求。Mistral重视隐私保护,预计到2026年AI转录将获得用户信任。

Mistral 发布 Voxtral Transcribe 2,一款成本极低的开源语音模型

实时互动网
实时互动网 · 2026-02-05T03:13:22Z
Handy – 听写助手!按下快捷键说话,松开输入文字。完全离线,本地运行

Handy是一款简单易用的语音转文本工具,支持Windows、macOS、Linux和NixOS。用户通过快捷键说话,松开后自动转为文字。该工具完全免费、开源,支持离线使用,适合需要快速输入或重视隐私的用户。

Handy – 听写助手!按下快捷键说话,松开输入文字。完全离线,本地运行

小众软件
小众软件 · 2026-02-04T11:36:28Z
微软发布 VibeVoice-ASR:一种统一的语音转文本模型,旨在一次性处理长达 60 分钟的音频

微软推出了VibeVoice-ASR,一个开源的语音转文本模型,支持最长60分钟的音频处理,输出结构化文本,包括“谁”、“何时”、“什么”。该模型允许用户自定义热词,以提高识别准确性,适合会议记录和长时间通话。

微软发布 VibeVoice-ASR:一种统一的语音转文本模型,旨在一次性处理长达 60 分钟的音频

实时互动网
实时互动网 · 2026-01-23T02:19:22Z
10 款不能错过的免费软件[20260122]

文章介绍了多个开源AI工具,包括离线语音转文本的Handy、自动化壁纸工具、截图工具Snow Shot、命令行AI工具AionUi、安卓自动化工具Ruto-GLM、本地AI代理Openwork、文本转自然语音的VibeVoice、微信聊天记录分析工具WeFlow,以及谷歌的AI工作流Opal。这些工具提升了用户的工作效率和体验。

10 款不能错过的免费软件[20260122]

小众软件
小众软件 · 2026-01-22T13:54:37Z
GLM ASR试用

作者使用GLM ASR替代OpenAI的murmur进行语音转文本,发现GLM在中英混合语句识别上表现更佳,尽管对OpenAI的依赖令人不满,但GLM的识别率和输出质量令人满意。最终,作者修改了murmur代码以使用GLM ASR。

GLM ASR试用

年华转瞬
年华转瞬 · 2026-01-06T22:43:00Z
Deepgram 在 Amazon SageMaker AI 上推出流媒体语音、文本和语音代理

Deepgram与Amazon SageMaker AI集成,提供流式实时语音转文本和文本转语音功能,简化AWS环境中的语音应用开发,适用于呼叫中心等场景,确保数据安全与合规性,助力企业创新。

Deepgram 在 Amazon SageMaker AI 上推出流媒体语音、文本和语音代理

实时互动网
实时互动网 · 2025-12-01T03:30:27Z
Cursor 2.0 IDE 现已强大升级,集成AI功能让我印象深刻

Cursor IDE 2.0更新了强大的AI集成功能,新增Composer特性,速度是同类模型的四倍,支持多达8个代理并行运行,界面简洁易用,用户可自定义命令,内置语音转文本功能,提升了代码调试体验。

Cursor 2.0 IDE 现已强大升级,集成AI功能让我印象深刻

The New Stack
The New Stack · 2025-11-26T21:00:30Z
Shotcut 25.07 视频编辑器带来多项改进

Shotcut 25.07 发布,新增语音转文本模型下载器,改进了 UI 主题和轮廓视频滤镜,增加了柔焦滤镜、环绕声混音改进及翻译功能。可在 Shotcut.org 下载。

Shotcut 25.07 视频编辑器带来多项改进

实时互动网
实时互动网 · 2025-07-28T02:04:17Z
200+ 个语音转文本后处理的自定义系统提示

本文介绍了一系列文本转换提示,旨在提升语音转文本和语音应用程序的输出质量。通过大型语言模型(LLM),这些提示能将原始文本重写为特定格式或风格,提高可用性,适用于多种语音应用,帮助用户提取任务列表并生成可预测的输出。

200+ 个语音转文本后处理的自定义系统提示

DEV Community
DEV Community · 2025-05-29T22:31:32Z
到 2034 年,语音转文本 API 市场规模将达到 210 亿美元

全球语音转文本API市场预计2024年将达到50亿美元,2034年增至210亿美元,年增长率为15.2%。增长因素包括AI语音识别的普及、医疗和法律领域的需求以及智能设备的兴起。尽管面临开发成本和数据隐私的挑战,教育和欺诈检测等领域仍具巨大潜力。主要参与者包括AWS、IBM和Google等。

到 2034 年,语音转文本 API 市场规模将达到 210 亿美元

实时互动网
实时互动网 · 2025-05-16T02:24:31Z
如何在本地安装NVIDIA Parakeet TDT 0.6B V2?

NVIDIA开发的Parakeet-TDT 0.6B V2是一款高效的英语语音转文本模型,支持最长24分钟音频转录,保留标点和时间戳,适合开发者和研究人员,具备GPU加速功能,提供快速可靠的转录结果。

如何在本地安装NVIDIA Parakeet TDT 0.6B V2?

DEV Community
DEV Community · 2025-05-11T21:55:53Z
构建一个用于视频内容搜索和分析的RAG系统

本文介绍了如何利用Amazon Bedrock和AWS服务,将视频和音频内容转化为可搜索的向量表示。通过提取视频帧、生成多模态嵌入和语音转文本等步骤,构建了一个支持自然语言查询的应用,实现高效检索视频中的特定时刻。

构建一个用于视频内容搜索和分析的RAG系统

DEV Community
DEV Community · 2025-04-16T17:09:34Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码