小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
微软 Build 2026 大会凸显对话式 AI 的新阶段

在微软Build开发者大会上,微软发布了MAI-Transcribe-1.5语音转文本模型和MAI-Voice-2文本转语音产品,提升了语音识别和合成语音的自然度。同时,微软推出了Project Solara,旨在通过持续在线的AI代理改善用户体验,尽管面临隐私和安全挑战,微软仍致力于将AI更深入地融入日常生活。

微软 Build 2026 大会凸显对话式 AI 的新阶段

实时互动网
实时互动网 · 2026-06-05T06:20:26Z
Miso Labs发布MisoTTS:一款拥有开放权重的80亿情感文本转语音模型

Miso Labs发布了MisoTTS,这是一款拥有80亿参数的文本转语音模型,采用残差矢量量化技术,能够根据文本和音频上下文生成富有表现力的语音。该模型的词汇量可扩展至约2048³²,支持半双工传输,API访问正在开发中。

Miso Labs发布MisoTTS:一款拥有开放权重的80亿情感文本转语音模型

实时互动网
实时互动网 · 2026-06-05T03:07:15Z
Cursor 对接 Fish 语音 MCP

Fish 语音 MCP 是一个高保真的文本转语音引擎,支持多种音色和格式。用户需获取 AceData Cloud API Token 进行配置,之后可生成音频。该服务适用于多种场景,调用时会从用户额度中扣费。

Cursor 对接 Fish 语音 MCP

静觅
静觅 · 2026-06-02T21:02:48Z
Free CPU教程丨狂揽8.8k stars,TTS模型Supertonic-3参数规模仅约99M,支持31种语言

随着生成式AI向多模态发展,Supertone团队推出的Supertonic-3模型支持31种语言,具备实时语音合成能力,参数仅为9900万。该模型可在CPU环境中运行,无需云API,适合开发本地AI助手和语音播报系统。

Free CPU教程丨狂揽8.8k stars,TTS模型Supertonic-3参数规模仅约99M,支持31种语言

HyperAI超神经
HyperAI超神经 · 2026-05-20T10:55:40Z
Voice Agents 101: The Architecture Behind AI That Can Converse with Humans

本文探讨了语音智能体的架构,包括语音转文本(STT)、大语言模型(LLM)和文本转语音(TTS)三个阶段。引入音频后,延迟和上下文处理变得复杂。级联模型适合大多数生产环境,而端到端模型在自然对话中更具竞争力。流式传输技术可减少延迟,提升对话自然性。设计中需考虑语音活动检测和话轮管理等技术挑战,以改善用户体验。

Voice Agents 101: The Architecture Behind AI That Can Converse with Humans

Measure Zero
Measure Zero · 2026-05-18T00:00:00Z
在线教程丨支持600+语言,小米开源OmniVoice:仅需3-10秒参考音频实现语音克隆

OmniVoice是一款新发布的多语言文本转语音(TTS)模型,支持超过600种语言,包括多种方言和口音。它采用非自回归架构,简化了语音生成流程,提高了自然度和可懂度。该模型具备零样本语音克隆能力,适用于AI配音和跨语言内容生成,展现出广泛的应用潜力。

在线教程丨支持600+语言,小米开源OmniVoice:仅需3-10秒参考音频实现语音克隆

HyperAI超神经
HyperAI超神经 · 2026-05-09T06:34:15Z

Voxtral TTS是Mistral AI推出的开源文本转语音模型,支持九种语言,能够在三秒音频基础上克隆声音,具有70毫秒的低延迟和9.7倍的实时因子,适合实时对话应用。用户可通过Mistral API或自托管方式使用,提供灵活的商业和非商业使用选项。

Voxtral TTS开源文本转语音模型

KDnuggets
KDnuggets · 2026-05-01T12:00:09Z
xAI推出独立的Grok语音转文本和文本转语音API,目标用户为企业语音开发人员

埃隆·马斯克的 AI 公司 xAI 发布了两款音频 API:语音转文本(STT)和文本转语音(TTS)。STT 支持 25 种语言,提供实时和批量转录,错误率为 5.0%。TTS 支持 20 种语言,提供多种声音选择,定价为每百万字符 4.20 美元。这标志着 xAI 进军语音 API 市场。

xAI推出独立的Grok语音转文本和文本转语音API,目标用户为企业语音开发人员

实时互动网
实时互动网 · 2026-04-20T03:19:00Z
突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团LongCat团队发布了LongCat-AudioDiT模型,采用全新的端到端文本转语音技术,减少信息损失。该模型在Seed基准测试中表现优异,取得最佳的说话人相似度和可懂度,证明了在波形潜空间生成语音的有效性。LongCat-AudioDiT以简化架构和高保真合成为目标,已开源,期待推动语音生成技术的发展。

突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团技术团队
美团技术团队 · 2026-04-20T00:00:00Z
零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

小米人工智能实验室推出了OmniVoice,这是一款支持600多种语言的零样本文本转语音(TTS)模型。该模型采用单阶段框架,直接将文本映射为声学标记,基于58.1万小时的开源数据训练,广泛覆盖语言,并提升了对低资源语言的支持。

零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

HyperAI超神经
HyperAI超神经 · 2026-04-17T08:28:37Z
Google AI 发布 Gemini 3.1 Flash TTS:表现力强、可控性高的 AI 语音技术新标杆

谷歌推出了Gemini 3.1 Flash TTS,这是一个改进的文本转语音模型,支持70多种语言,具备自然语言音频标签和多说话人对话功能。该模型在行业基准测试中得分1211,提供复杂的控制层,允许开发者根据场景调整语气、语速和口音。同时,集成的SynthID水印技术可识别AI生成内容,确保信息透明。

Google AI 发布 Gemini 3.1 Flash TTS:表现力强、可控性高的 AI 语音技术新标杆

实时互动网
实时互动网 · 2026-04-16T03:02:56Z

谷歌推出了Gemini 3.1 Flash TTS,这是最新的文本转语音模型,具备更好的可控性、表现力和音质,支持70多种语言,并提供音频标签以控制语音风格和节奏。所有生成的音频都带有不可见水印SynthID,以防止虚假信息传播。

Gemini 3.1 Flash TTS:下一代富有表现力的人工智能语音

The Keyword
The Keyword · 2026-04-15T15:00:00Z
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

音频生成技术正向端到端生成演进。美团LongCat团队推出LongCat-AudioDiT,直接在波形潜空间进行文本转语音,避免信息损失。该模型在Seed基准测试中表现优异,取得了SOTA的说话人相似度和可懂度,展现出强大的零样本语音克隆能力。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

实时互动网
实时互动网 · 2026-04-02T01:48:34Z
Google AI 发布 WAXAL:用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

WAXAL是一个开放的多语言语音数据集,涵盖24种非洲语言,专为自动语音识别(ASR)和文本转语音(TTS)设计。ASR部分通过图像提示自然采集语音,TTS部分在录音棚中高质量录制,确保语音一致性。

Google AI 发布 WAXAL:用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

实时互动网
实时互动网 · 2026-03-19T02:10:27Z
Voximplant 将 Cartesia Line 语音代理引入真实通话中

云通信平台Voximplant宣布支持Cartesia Line,简化AI代理开发。开发者可直接连接电话、SIP和WhatsApp,无需自定义基础设施,Voximplant负责电话层管理,团队可专注于座席逻辑。该平台支持文本转语音和语音克隆,助力企业快速实现语音AI转型。

Voximplant 将 Cartesia Line 语音代理引入真实通话中

实时互动网
实时互动网 · 2026-02-13T03:12:27Z
想让 TTS 更具情感和可控性?试试 GLM‑TTS

GLM-TTS 是一个基于多奖励强化学习的文本转语音系统,支持零样本情感表达和多维度控制,旨在生成自然且富有情感的语音,适用于语音助手和有声书等场景,采用开源许可,便于社区使用与扩展。

想让 TTS 更具情感和可控性?试试 GLM‑TTS

dotNET跨平台
dotNET跨平台 · 2026-02-04T23:46:07Z
10 款不能错过的免费软件[20260122]

文章介绍了多个开源AI工具,包括离线语音转文本的Handy、自动化壁纸工具、截图工具Snow Shot、命令行AI工具AionUi、安卓自动化工具Ruto-GLM、本地AI代理Openwork、文本转自然语音的VibeVoice、微信聊天记录分析工具WeFlow,以及谷歌的AI工作流Opal。这些工具提升了用户的工作效率和体验。

10 款不能错过的免费软件[20260122]

小众软件
小众软件 · 2026-01-22T13:54:37Z
CAMB.AI 发布 MARS8:首个 TTS 架构系列,终结“一刀切”式语音 AI 时代

CAMB.AI推出MARS8,这是首个针对不同生产环境设计的文本转语音系统,克服了通用模型的局限。MARS8提供四种架构,优化特定需求,并采用计算优先的定价模式,降低企业成本,标志着生产级语音AI的重大进展。

CAMB.AI 发布 MARS8:首个 TTS 架构系列,终结“一刀切”式语音 AI 时代

实时互动网
实时互动网 · 2026-01-22T02:29:02Z
如何将您喜爱的技术博客转换为个人播客

本文介绍了如何将技术博客文章转换为个人播客。用户可以通过构建Node.js脚本,从RSS源获取文章,过滤不需要的内容,清理文本,使用文本转语音API生成音频,最后上传到Cloudflare R2并生成播客RSS源,实现自动化,方便用户在手机上订阅播客。

如何将您喜爱的技术博客转换为个人播客

freeCodeCamp.org
freeCodeCamp.org · 2026-01-21T21:46:25Z
如何使用OpenAI构建和部署博客转音频服务

将博客文章转为音频是一种有效的传播方式。利用OpenAI的文本转语音模型,可以创建服务,提取博客内容并生成MP3文件。通过FastAPI构建后端,用户可上传文本或链接以获取音频文件,最后将服务部署到Sevalla,实现在线使用。

如何使用OpenAI构建和部署博客转音频服务

freeCodeCamp.org
freeCodeCamp.org · 2026-01-14T04:34:50Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码