小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
微软 Build 2026 大会凸显对话式 AI 的新阶段

在微软Build开发者大会上,微软发布了MAI-Transcribe-1.5语音转文本模型和MAI-Voice-2文本转语音产品,提升了语音识别和合成语音的自然度。同时,微软推出了Project Solara,旨在通过持续在线的AI代理改善用户体验,尽管面临隐私和安全挑战,微软仍致力于将AI更深入地融入日常生活。

微软 Build 2026 大会凸显对话式 AI 的新阶段

实时互动网
实时互动网 · 2026-06-05T06:20:26Z
Miso Labs发布MisoTTS:一款拥有开放权重的80亿情感文本转语音模型

Miso Labs发布了MisoTTS,这是一款拥有80亿参数的文本转语音模型,采用残差矢量量化技术,能够根据文本和音频上下文生成富有表现力的语音。该模型的词汇量可扩展至约2048³²,支持半双工传输,API访问正在开发中。

Miso Labs发布MisoTTS:一款拥有开放权重的80亿情感文本转语音模型

实时互动网
实时互动网 · 2026-06-05T03:07:15Z
Cursor 对接 Fish 语音 MCP

Fish 语音 MCP 是一个高保真的文本转语音引擎,支持多种音色和格式。用户需获取 AceData Cloud API Token 进行配置,之后可生成音频。该服务适用于多种场景,调用时会从用户额度中扣费。

Cursor 对接 Fish 语音 MCP

静觅
静觅 · 2026-06-02T21:02:48Z
Free CPU教程丨狂揽8.8k stars,TTS模型Supertonic-3参数规模仅约99M,支持31种语言

随着生成式AI向多模态发展,Supertone团队推出的Supertonic-3模型支持31种语言,具备实时语音合成能力,参数仅为9900万。该模型可在CPU环境中运行,无需云API,适合开发本地AI助手和语音播报系统。

Free CPU教程丨狂揽8.8k stars,TTS模型Supertonic-3参数规模仅约99M,支持31种语言

HyperAI超神经
HyperAI超神经 · 2026-05-20T10:55:40Z
Voice Agents 101: The Architecture Behind AI That Can Converse with Humans

本文探讨了语音智能体的架构,包括语音转文本(STT)、大语言模型(LLM)和文本转语音(TTS)三个阶段。引入音频后,延迟和上下文处理变得复杂。级联模型适合大多数生产环境,而端到端模型在自然对话中更具竞争力。流式传输技术可减少延迟,提升对话自然性。设计中需考虑语音活动检测和话轮管理等技术挑战,以改善用户体验。

Voice Agents 101: The Architecture Behind AI That Can Converse with Humans

Measure Zero
Measure Zero · 2026-05-18T00:00:00Z
在线教程丨支持600+语言,小米开源OmniVoice:仅需3-10秒参考音频实现语音克隆

OmniVoice是一款新发布的多语言文本转语音(TTS)模型,支持超过600种语言,包括多种方言和口音。它采用非自回归架构,简化了语音生成流程,提高了自然度和可懂度。该模型具备零样本语音克隆能力,适用于AI配音和跨语言内容生成,展现出广泛的应用潜力。

在线教程丨支持600+语言,小米开源OmniVoice:仅需3-10秒参考音频实现语音克隆

HyperAI超神经
HyperAI超神经 · 2026-05-09T06:34:15Z

Voxtral TTS是Mistral AI推出的开源文本转语音模型,支持九种语言,能够在三秒音频基础上克隆声音,具有70毫秒的低延迟和9.7倍的实时因子,适合实时对话应用。用户可通过Mistral API或自托管方式使用,提供灵活的商业和非商业使用选项。

Voxtral TTS开源文本转语音模型

KDnuggets
KDnuggets · 2026-05-01T12:00:09Z
xAI推出独立的Grok语音转文本和文本转语音API,目标用户为企业语音开发人员

埃隆·马斯克的 AI 公司 xAI 发布了两款音频 API:语音转文本(STT)和文本转语音(TTS)。STT 支持 25 种语言,提供实时和批量转录,错误率为 5.0%。TTS 支持 20 种语言,提供多种声音选择,定价为每百万字符 4.20 美元。这标志着 xAI 进军语音 API 市场。

xAI推出独立的Grok语音转文本和文本转语音API,目标用户为企业语音开发人员

实时互动网
实时互动网 · 2026-04-20T03:19:00Z
突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团LongCat团队发布了LongCat-AudioDiT模型,采用全新的端到端文本转语音技术,减少信息损失。该模型在Seed基准测试中表现优异,取得最佳的说话人相似度和可懂度,证明了在波形潜空间生成语音的有效性。LongCat-AudioDiT以简化架构和高保真合成为目标,已开源,期待推动语音生成技术的发展。

突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团技术团队
美团技术团队 · 2026-04-20T00:00:00Z
零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

小米人工智能实验室推出了OmniVoice,这是一款支持600多种语言的零样本文本转语音(TTS)模型。该模型采用单阶段框架,直接将文本映射为声学标记,基于58.1万小时的开源数据训练,广泛覆盖语言,并提升了对低资源语言的支持。

零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

HyperAI超神经
HyperAI超神经 · 2026-04-17T08:28:37Z
Google AI 发布 Gemini 3.1 Flash TTS:表现力强、可控性高的 AI 语音技术新标杆

谷歌推出了Gemini 3.1 Flash TTS,这是一个改进的文本转语音模型,支持70多种语言,具备自然语言音频标签和多说话人对话功能。该模型在行业基准测试中得分1211,提供复杂的控制层,允许开发者根据场景调整语气、语速和口音。同时,集成的SynthID水印技术可识别AI生成内容,确保信息透明。

Google AI 发布 Gemini 3.1 Flash TTS:表现力强、可控性高的 AI 语音技术新标杆

实时互动网
实时互动网 · 2026-04-16T03:02:56Z

谷歌推出了Gemini 3.1 Flash TTS,这是最新的文本转语音模型,具备更好的可控性、表现力和音质,支持70多种语言,并提供音频标签以控制语音风格和节奏。所有生成的音频都带有不可见水印SynthID,以防止虚假信息传播。

Gemini 3.1 Flash TTS:下一代富有表现力的人工智能语音

The Keyword
The Keyword · 2026-04-15T15:00:00Z
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

音频生成技术正向端到端生成演进。美团LongCat团队推出LongCat-AudioDiT,直接在波形潜空间进行文本转语音,避免信息损失。该模型在Seed基准测试中表现优异,取得了SOTA的说话人相似度和可懂度,展现出强大的零样本语音克隆能力。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

实时互动网
实时互动网 · 2026-04-02T01:48:34Z
Google AI 发布 WAXAL:用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

WAXAL是一个开放的多语言语音数据集,涵盖24种非洲语言,专为自动语音识别(ASR)和文本转语音(TTS)设计。ASR部分通过图像提示自然采集语音,TTS部分在录音棚中高质量录制,确保语音一致性。

Google AI 发布 WAXAL:用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

实时互动网
实时互动网 · 2026-03-19T02:10:27Z
Voximplant 将 Cartesia Line 语音代理引入真实通话中

云通信平台Voximplant宣布支持Cartesia Line,简化AI代理开发。开发者可直接连接电话、SIP和WhatsApp,无需自定义基础设施,Voximplant负责电话层管理,团队可专注于座席逻辑。该平台支持文本转语音和语音克隆,助力企业快速实现语音AI转型。

Voximplant 将 Cartesia Line 语音代理引入真实通话中

实时互动网
实时互动网 · 2026-02-13T03:12:27Z
想让 TTS 更具情感和可控性?试试 GLM‑TTS

GLM-TTS 是一个基于多奖励强化学习的文本转语音系统,支持零样本情感表达和多维度控制,旨在生成自然且富有情感的语音,适用于语音助手和有声书等场景,采用开源许可,便于社区使用与扩展。

想让 TTS 更具情感和可控性?试试 GLM‑TTS

dotNET跨平台
dotNET跨平台 · 2026-02-04T23:46:07Z
10 款不能错过的免费软件[20260122]

文章介绍了多个开源AI工具,包括离线语音转文本的Handy、自动化壁纸工具、截图工具Snow Shot、命令行AI工具AionUi、安卓自动化工具Ruto-GLM、本地AI代理Openwork、文本转自然语音的VibeVoice、微信聊天记录分析工具WeFlow,以及谷歌的AI工作流Opal。这些工具提升了用户的工作效率和体验。

10 款不能错过的免费软件[20260122]

小众软件
小众软件 · 2026-01-22T13:54:37Z
CAMB.AI 发布 MARS8:首个 TTS 架构系列,终结“一刀切”式语音 AI 时代

CAMB.AI推出MARS8,这是首个针对不同生产环境设计的文本转语音系统,克服了通用模型的局限。MARS8提供四种架构,优化特定需求,并采用计算优先的定价模式,降低企业成本,标志着生产级语音AI的重大进展。

CAMB.AI 发布 MARS8:首个 TTS 架构系列,终结“一刀切”式语音 AI 时代

实时互动网
实时互动网 · 2026-01-22T02:29:02Z
如何将您喜爱的技术博客转换为个人播客

本文介绍了如何将技术博客文章转换为个人播客。用户可以通过构建Node.js脚本,从RSS源获取文章,过滤不需要的内容,清理文本,使用文本转语音API生成音频,最后上传到Cloudflare R2并生成播客RSS源,实现自动化,方便用户在手机上订阅播客。

如何将您喜爱的技术博客转换为个人播客

freeCodeCamp.org
freeCodeCamp.org · 2026-01-21T21:46:25Z
如何使用OpenAI构建和部署博客转音频服务

将博客文章转为音频是一种有效的传播方式。利用OpenAI的文本转语音模型,可以创建服务,提取博客内容并生成MP3文件。通过FastAPI构建后端,用户可上传文本或链接以获取音频文件,最后将服务部署到Sevalla,实现在线使用。

如何使用OpenAI构建和部署博客转音频服务

freeCodeCamp.org
freeCodeCamp.org · 2026-01-14T04:34:50Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码