最新 TTS 技术与应用：多语言语音生成与克隆的前沿探索 - 小红花·文摘 - 小红花技术领袖俱乐部

从“能说话”到“会表达”：Qwen-Audio-3.0-TTS 发布

从“能说话”到“会表达”：Qwen-Audio-3.0-TTS 发布

实时互动网 ·

AI语音进入“表演时代”：阿里Qwen-Audio-3.0-TTS登顶全球权威榜单

量子位 ·

emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

HyperAI超神经 ·

Fish TTS API 对接说明

Fish TTS API 对接说明

静觅 ·

AI 语音聊天机器人背后是怎么实现的，是 ASR + LLM + TTS 串起来吗，延迟怎么压下去

AI 语音聊天机器人背后是怎么实现的，是 ASR + LLM + TTS 串起来吗，延迟怎么压下去

实时互动网 ·

如何训练AI语音开发模型？从数据准备到三层优化的实操路径

如何训练AI语音开发模型？从数据准备到三层优化的实操路径

实时互动网 ·

哪些AI语音开发平台收费低？了解最省钱的选型组合

哪些AI语音开发平台收费低？了解最省钱的选型组合

实时互动网 ·

Free CPU教程丨狂揽8.8k stars，TTS模型Supertonic-3参数规模仅约99M，支持31种语言

Free CPU教程丨狂揽8.8k stars，TTS模型Supertonic-3参数规模仅约99M，支持31种语言

HyperAI超神经 ·

阶跃最新语音模型位列 Artificial Analysis 评测榜中国第一

阶跃最新语音模型位列 Artificial Analysis 评测榜中国第一

量子位 ·

超600种语言，一个模型全搞定! 小米开源 OmniVoice 多语言语音克隆 TTS

超600种语言，一个模型全搞定! 小米开源 OmniVoice 多语言语音克隆 TTS

小米云技术 ·

Voxtral TTS是Mistral AI推出的开源文本转语音模型，支持九种语言，能够在三秒音频基础上克隆声音，具有70毫秒的低延迟和9.7倍的实时因子，适合实时对话应用。用户可通过Mistral API或自托管方式使用，提供灵活的商业和非商业使用选项。

Voxtral TTS开源文本转语音模型

KDnuggets ·

OpenClaw v2026.4.25更新：语音角色、TTS升级中文顺畅、插件加速

OpenClaw v2026.4.25更新：语音角色、TTS升级中文顺畅、插件加速

极道 ·

MiMo-V2.5-TTS-Series + ASR 正式发布

MiMo-V2.5-TTS-Series + ASR 正式发布

小米云技术 ·

突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

美团技术团队 ·

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

HyperAI超神经 ·

OpenClaw v2026.4.15发布：接入Opus4.7、Gemini TTS、云存储

OpenClaw v2026.4.15发布：接入Opus4.7、Gemini TTS、云存储

极道 ·

Google AI 发布 Gemini 3.1 Flash TTS：表现力强、可控性高的 AI 语音技术新标杆

Google AI 发布 Gemini 3.1 Flash TTS：表现力强、可控性高的 AI 语音技术新标杆

实时互动网 ·

Gemini 3.1 Flash TTS是最新的AI语音模型，支持70多种语言，用户可通过音频标签调整语音风格和节奏。所有生成的音频均带有SynthID水印，以防止误信息传播。开发者可在Google AI Studio中使用该模型，创造高保真语音体验。

Gemini 3.1 Flash TTS：下一代富有表现力的AI语音

Google DeepMind Blog ·

谷歌推出了Gemini 3.1 Flash TTS，这是最新的文本转语音模型，具备更好的可控性、表现力和音质，支持70多种语言，并提供音频标签以控制语音风格和节奏。所有生成的音频都带有不可见水印SynthID，以防止虚假信息传播。

Gemini 3.1 Flash TTS：下一代富有表现力的人工智能语音

The Keyword ·

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；多项全能！Capybara 一站式搞定图、视频生成与指令编辑

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；多项全能！Capybara 一站式搞定图、视频生成与指令编辑

HyperAI超神经 ·