小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
xAI推出独立的Grok语音转文本和文本转语音API,目标用户为企业语音开发人员

埃隆·马斯克的 AI 公司 xAI 发布了两款音频 API:语音转文本(STT)和文本转语音(TTS)。STT 支持 25 种语言,提供实时和批量转录,错误率为 5.0%。TTS 支持 20 种语言,提供多种声音选择,定价为每百万字符 4.20 美元。这标志着 xAI 进军语音 API 市场。

xAI推出独立的Grok语音转文本和文本转语音API,目标用户为企业语音开发人员

实时互动网
实时互动网 · 2026-04-20T03:19:00Z
audiov – Linux 下的语音输入法(fcitx5)

audiov是一款基于Rust开发的Linux语音转文本软件,利用whisper进行本地语音识别。它支持离线识别,能将文字直接输入到光标处,并通过全局快捷键操作,提供流畅的输入体验。

audiov – Linux 下的语音输入法(fcitx5)

小众软件
小众软件 · 2026-03-21T08:19:30Z
GStreamer 1.28.1 发布,新增基于 Whisper 的语音转文本功能,并支持 AV1 有状态 V4L2 解码器

GStreamer 1.28.1于2026年2月26日发布,新增语音转文本功能、调试插件和AV1解码器支持,修复多个组件问题,增强音频事件配置及WebRTC流功能,提升安全性和播放性能。

GStreamer 1.28.1 发布,新增基于 Whisper 的语音转文本功能,并支持 AV1 有状态 V4L2 解码器

实时互动网
实时互动网 · 2026-02-27T02:11:14Z
Deepgram 和 IBM 推出面向企业人工智能的高级语音功能

IBM与Deepgram合作,将语音转文本和文本转语音功能集成到watsonx Orchestrate中,以满足企业对高性能转录和实时字幕的需求。这使Deepgram成为IBM首个语音合作伙伴,推动了医疗和金融领域的运营自动化和对话式AI技术的发展。

Deepgram 和 IBM 推出面向企业人工智能的高级语音功能

实时互动网
实时互动网 · 2026-02-25T03:05:28Z
Mistral 发布 Voxtral Transcribe 2,一款成本极低的开源语音模型

总部位于巴黎的Mistral AI推出了两款语音转文本模型,强调快速、准确和低成本,适合处理敏感数据。Voxtral Transcribe 2系列支持本地运行,满足医疗和金融等行业需求。Mistral重视隐私保护,预计到2026年AI转录将获得用户信任。

Mistral 发布 Voxtral Transcribe 2,一款成本极低的开源语音模型

实时互动网
实时互动网 · 2026-02-05T03:13:22Z
Handy – 听写助手!按下快捷键说话,松开输入文字。完全离线,本地运行

Handy是一款简单易用的语音转文本工具,支持Windows、macOS、Linux和NixOS。用户通过快捷键说话,松开后自动转为文字。该工具完全免费、开源,支持离线使用,适合需要快速输入或重视隐私的用户。

Handy – 听写助手!按下快捷键说话,松开输入文字。完全离线,本地运行

小众软件
小众软件 · 2026-02-04T11:36:28Z
微软发布 VibeVoice-ASR:一种统一的语音转文本模型,旨在一次性处理长达 60 分钟的音频

微软推出了VibeVoice-ASR,一个开源的语音转文本模型,支持最长60分钟的音频处理,输出结构化文本,包括“谁”、“何时”、“什么”。该模型允许用户自定义热词,以提高识别准确性,适合会议记录和长时间通话。

微软发布 VibeVoice-ASR:一种统一的语音转文本模型,旨在一次性处理长达 60 分钟的音频

实时互动网
实时互动网 · 2026-01-23T02:19:22Z
10 款不能错过的免费软件[20260122]

文章介绍了多个开源AI工具,包括离线语音转文本的Handy、自动化壁纸工具、截图工具Snow Shot、命令行AI工具AionUi、安卓自动化工具Ruto-GLM、本地AI代理Openwork、文本转自然语音的VibeVoice、微信聊天记录分析工具WeFlow,以及谷歌的AI工作流Opal。这些工具提升了用户的工作效率和体验。

10 款不能错过的免费软件[20260122]

小众软件
小众软件 · 2026-01-22T13:54:37Z
GLM ASR试用

作者使用GLM ASR替代OpenAI的murmur进行语音转文本,发现GLM在中英混合语句识别上表现更佳,尽管对OpenAI的依赖令人不满,但GLM的识别率和输出质量令人满意。最终,作者修改了murmur代码以使用GLM ASR。

GLM ASR试用

年华转瞬
年华转瞬 · 2026-01-06T22:43:00Z
Deepgram 在 Amazon SageMaker AI 上推出流媒体语音、文本和语音代理

Deepgram与Amazon SageMaker AI集成,提供流式实时语音转文本和文本转语音功能,简化AWS环境中的语音应用开发,适用于呼叫中心等场景,确保数据安全与合规性,助力企业创新。

Deepgram 在 Amazon SageMaker AI 上推出流媒体语音、文本和语音代理

实时互动网
实时互动网 · 2025-12-01T03:30:27Z
Cursor 2.0 IDE 现已强大升级,集成AI功能让我印象深刻

Cursor IDE 2.0更新了强大的AI集成功能,新增Composer特性,速度是同类模型的四倍,支持多达8个代理并行运行,界面简洁易用,用户可自定义命令,内置语音转文本功能,提升了代码调试体验。

Cursor 2.0 IDE 现已强大升级,集成AI功能让我印象深刻

The New Stack
The New Stack · 2025-11-26T21:00:30Z
Shotcut 25.07 视频编辑器带来多项改进

Shotcut 25.07 发布,新增语音转文本模型下载器,改进了 UI 主题和轮廓视频滤镜,增加了柔焦滤镜、环绕声混音改进及翻译功能。可在 Shotcut.org 下载。

Shotcut 25.07 视频编辑器带来多项改进

实时互动网
实时互动网 · 2025-07-28T02:04:17Z
200+ 个语音转文本后处理的自定义系统提示

本文介绍了一系列文本转换提示,旨在提升语音转文本和语音应用程序的输出质量。通过大型语言模型(LLM),这些提示能将原始文本重写为特定格式或风格,提高可用性,适用于多种语音应用,帮助用户提取任务列表并生成可预测的输出。

200+ 个语音转文本后处理的自定义系统提示

DEV Community
DEV Community · 2025-05-29T22:31:32Z
到 2034 年,语音转文本 API 市场规模将达到 210 亿美元

全球语音转文本API市场预计2024年将达到50亿美元,2034年增至210亿美元,年增长率为15.2%。增长因素包括AI语音识别的普及、医疗和法律领域的需求以及智能设备的兴起。尽管面临开发成本和数据隐私的挑战,教育和欺诈检测等领域仍具巨大潜力。主要参与者包括AWS、IBM和Google等。

到 2034 年,语音转文本 API 市场规模将达到 210 亿美元

实时互动网
实时互动网 · 2025-05-16T02:24:31Z
如何在本地安装NVIDIA Parakeet TDT 0.6B V2?

NVIDIA开发的Parakeet-TDT 0.6B V2是一款高效的英语语音转文本模型,支持最长24分钟音频转录,保留标点和时间戳,适合开发者和研究人员,具备GPU加速功能,提供快速可靠的转录结果。

如何在本地安装NVIDIA Parakeet TDT 0.6B V2?

DEV Community
DEV Community · 2025-05-11T21:55:53Z
构建一个用于视频内容搜索和分析的RAG系统

本文介绍了如何利用Amazon Bedrock和AWS服务,将视频和音频内容转化为可搜索的向量表示。通过提取视频帧、生成多模态嵌入和语音转文本等步骤,构建了一个支持自然语言查询的应用,实现高效检索视频中的特定时刻。

构建一个用于视频内容搜索和分析的RAG系统

DEV Community
DEV Community · 2025-04-16T17:09:34Z
OpenAI推出新的语音模型用于转录和语音生成

OpenAI推出了新的语音转文本和文本转语音模型,提升了转录准确性,特别在处理口音、背景噪音和语速变化方面表现优异,适合客户支持和多语言对话。开发者可通过API集成并定制AI语音风格。尽管与行业领先者仍有差距,但其易用性和市场份额吸引了开发者。

OpenAI推出新的语音模型用于转录和语音生成

InfoQ
InfoQ · 2025-03-31T18:20:00Z
刚刚,OpenAI开启语音智能体时代,API价格低至每分钟0.015美元

OpenAI推出了新的音频模型GPT-4o,提升了语音转文本和文本转语音的准确性,尤其在复杂场景中表现优异。开发者可以定制AI的说话方式,适用于客户服务等领域。新模型在多个基准测试中表现出色,错误率更低,支持多语言,并提供API以简化开发,未来将继续优化性能。

刚刚,OpenAI开启语音智能体时代,API价格低至每分钟0.015美元

机器之心
机器之心 · 2025-03-21T02:36:04Z
刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

OpenAI推出新一代音频模型,具备语音转文本和文本转语音功能,显著提升转录精度和语音风格控制,适用于多种应用场景。该模型在多语言测试中表现优异,定价合理,旨在提升开发者体验和语音交互的情感表达。

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

爱范儿
爱范儿 · 2025-03-21T00:29:29Z
在API中推出新一代音频模型

2025年3月20日,推出新一代音频模型,提升语音代理的智能和交互能力。新模型具备更精准的语音转文本和文本转语音功能,适用于客户服务和创意叙事等场景,开发者可定制语音风格,增强用户体验,且在多语言环境中表现优异。

在API中推出新一代音频模型

OpenAI
OpenAI · 2025-03-20T11:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码