小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Free CPU教程丨狂揽8.8k stars,TTS模型Supertonic-3参数规模仅约99M,支持31种语言

随着生成式AI向多模态发展,Supertone团队推出的Supertonic-3模型支持31种语言,具备实时语音合成能力,参数仅为9900万。该模型可在CPU环境中运行,无需云API,适合开发本地AI助手和语音播报系统。

Free CPU教程丨狂揽8.8k stars,TTS模型Supertonic-3参数规模仅约99M,支持31种语言

HyperAI超神经
HyperAI超神经 · 2026-05-20T10:55:40Z
阶跃最新语音模型位列 Artificial Analysis 评测榜中国第一

阶跃语音生成模型StepAudio 2.5 TTS在全球TTS评测中排名第三,展现出自然的语音表达能力,适用于客户服务和知识分享等场景。阶跃还推出了StepAudio 2.5系列模型,涵盖语音生成、识别和实时交互,强调“有温度”的AI体验,已在多个核心场景实现商业化落地。

阶跃最新语音模型位列 Artificial Analysis 评测榜中国第一

量子位
量子位 · 2026-05-09T10:29:31Z

Voxtral TTS是Mistral AI推出的开源文本转语音模型,支持九种语言,能够在三秒音频基础上克隆声音,具有70毫秒的低延迟和9.7倍的实时因子,适合实时对话应用。用户可通过Mistral API或自托管方式使用,提供灵活的商业和非商业使用选项。

Voxtral TTS开源文本转语音模型

KDnuggets
KDnuggets · 2026-05-01T12:00:09Z
OpenClaw v2026.4.25更新:语音角色、TTS升级中文顺畅、插件加速

OpenClaw于2026年4月25日进行了重要更新,提升了AI语音合成能力,增加了语音人格化功能,使声音更自然、情感丰富。优化了插件系统,确保快速启动和稳定更新,监控系统实现透明化以保护隐私。简化了安装流程,降低了出错风险。整体上,OpenClaw从实验性工具升级为稳定的工程化平台,显著提升用户体验。

OpenClaw v2026.4.25更新:语音角色、TTS升级中文顺畅、插件加速

极道
极道 · 2026-04-27T22:04:00Z
突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团LongCat团队发布了LongCat-AudioDiT模型,采用全新的端到端文本转语音技术,减少信息损失。该模型在Seed基准测试中表现优异,取得最佳的说话人相似度和可懂度,证明了在波形潜空间生成语音的有效性。LongCat-AudioDiT以简化架构和高保真合成为目标,已开源,期待推动语音生成技术的发展。

突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团技术团队
美团技术团队 · 2026-04-20T00:00:00Z
零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

小米人工智能实验室推出了OmniVoice,这是一款支持600多种语言的零样本文本转语音(TTS)模型。该模型采用单阶段框架,直接将文本映射为声学标记,基于58.1万小时的开源数据训练,广泛覆盖语言,并提升了对低资源语言的支持。

零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

HyperAI超神经
HyperAI超神经 · 2026-04-17T08:28:37Z
OpenClaw v2026.4.15发布:接入Opus4.7、Gemini TTS、云存储

OpenClaw 2026.4.15版本更新了多个核心功能,解决了AI工程中的上下文膨胀、记忆管理和工具链不稳定等问题。新增了对Anthropic Opus 4.7和Gemini TTS的支持,优化了内存系统,增强了模型选择的便捷性和安全性,并引入了云存储支持,提升了长期记忆系统的可扩展性和开发者体验。整体上,OpenClaw朝着长期稳定运行的方向发展。

OpenClaw v2026.4.15发布:接入Opus4.7、Gemini TTS、云存储

极道
极道 · 2026-04-17T00:42:00Z
Google AI 发布 Gemini 3.1 Flash TTS:表现力强、可控性高的 AI 语音技术新标杆

谷歌推出了Gemini 3.1 Flash TTS,这是一个改进的文本转语音模型,支持70多种语言,具备自然语言音频标签和多说话人对话功能。该模型在行业基准测试中得分1211,提供复杂的控制层,允许开发者根据场景调整语气、语速和口音。同时,集成的SynthID水印技术可识别AI生成内容,确保信息透明。

Google AI 发布 Gemini 3.1 Flash TTS:表现力强、可控性高的 AI 语音技术新标杆

实时互动网
实时互动网 · 2026-04-16T03:02:56Z

Gemini 3.1 Flash TTS是最新的AI语音模型,支持70多种语言,用户可通过音频标签调整语音风格和节奏。所有生成的音频均带有SynthID水印,以防止误信息传播。开发者可在Google AI Studio中使用该模型,创造高保真语音体验。

Gemini 3.1 Flash TTS:下一代富有表现力的AI语音

Google DeepMind Blog
Google DeepMind Blog · 2026-04-15T16:03:19Z

谷歌推出了Gemini 3.1 Flash TTS,这是最新的文本转语音模型,具备更好的可控性、表现力和音质,支持70多种语言,并提供音频标签以控制语音风格和节奏。所有生成的音频都带有不可见水印SynthID,以防止虚假信息传播。

Gemini 3.1 Flash TTS:下一代富有表现力的人工智能语音

The Keyword
The Keyword · 2026-04-15T15:00:00Z
仅需 3 秒音频实现「配音自由」,Mistral 开源语音大模型 Voxtral-4B-TTS-2603;多项全能!Capybara 一站式搞定图、视频生成与指令编辑

Mistral发布了Voxtral-4B-TTS-2603模型,旨在提升多语言语音生成的自然度和效率。该模型结合了语义自回归和声学流匹配,支持低延迟本地运行,展现出良好的泛化能力。

仅需 3 秒音频实现「配音自由」,Mistral 开源语音大模型 Voxtral-4B-TTS-2603;多项全能!Capybara 一站式搞定图、视频生成与指令编辑

HyperAI超神经
HyperAI超神经 · 2026-04-08T06:29:50Z
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

音频生成技术正向端到端生成演进。美团LongCat团队推出LongCat-AudioDiT,直接在波形潜空间进行文本转语音,避免信息损失。该模型在Seed基准测试中表现优异,取得了SOTA的说话人相似度和可懂度,展现出强大的零样本语音克隆能力。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

实时互动网
实时互动网 · 2026-04-02T01:48:34Z

研究发现,Qwen的语音合成技术中,跨句合成的音色稳定性只能通过语音克隆实现。虽然可以通过语气指令调节音色,但无法确保跨句一致性。使用seed参数仅能在同一句话中保持一致。最终,通过生成wav文件并转换为pt文件,实现了稳定的音色,并可进行二次语气控制,效果令人满意。希望这些经验能帮助其他AI研究者。

Qwen TTS 跨句音色稳定输出技术的研究

Andy Stewart
Andy Stewart · 2026-03-26T16:00:00Z

在调试小龙猫语音时遇到困难,发现千问TTS模型音色控制有限,句子间音色不稳定。明天将尝试语音克隆,若无效则考虑更换模型。实践是获取知识的关键。

Qwen TTS 研究

Andy Stewart
Andy Stewart · 2026-03-25T16:00:00Z
MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

MOSS-TTS系列是MOSI.AI与OpenMOSS联合推出的多模型语音生成工具,克服了单一模型在复杂场景中的局限,支持高保真语音、对话和实时交互,适用于多种语言和风格切换。

MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

HyperAI超神经
HyperAI超神经 · 2026-03-06T06:01:17Z
在线教程丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控

生成式AI的语音合成技术不断进步,Qwen3-TTS模型支持多语言、语音克隆和细粒度控制,已在HyperAI官网上线,用户可体验3秒语音克隆。

在线教程丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控

HyperAI超神经
HyperAI超神经 · 2026-03-03T05:52:33Z

我开发了一个基于Microsoft Edge TTS API的免费图形化文字转语音工具,名为edge-tts_tk_gui。该工具使用Python和Tkinter构建,支持多种语音选择、批量处理和音频播放,操作简单,适合各类用户。项目展示了AI在编程中的应用,代码结构清晰,易于维护。

我用大模型写了一个Edge TTS图形化工具

碎言博客
碎言博客 · 2026-02-26T08:06:37Z
想让 TTS 更具情感和可控性?试试 GLM‑TTS

GLM-TTS 是一个基于多奖励强化学习的文本转语音系统,支持零样本情感表达和多维度控制,旨在生成自然且富有情感的语音,适用于语音助手和有声书等场景,采用开源许可,便于社区使用与扩展。

想让 TTS 更具情感和可控性?试试 GLM‑TTS

dotNET跨平台
dotNET跨平台 · 2026-02-04T23:46:07Z
2026年2月1日Python Hub周刊摘要

本周Python亮点包括口袋TTS项目、卫星追踪方法、Python数据类冷知识、Polars代码转SQL讨论及NumPy教程。此外,Rust驱动的FM-index实现了快速子串搜索,Django 6.0的bug由单个测试揭示。新项目有Opticol、Paper2Any和Violit。

2026年2月1日Python Hub周刊摘要

Python Hub Weekly
Python Hub Weekly · 2026-02-01T18:00:00Z
Inworld AI 发布 TTS-1.5,用于实时、生产级语音代理

Inworld AI 推出了 TTS-1.5,显著提升了实时语音代理的延迟和质量。Max 型号音频延迟低于 250 毫秒,Mini 型号低于 130 毫秒,性能和稳定性分别提高 30% 和 40%。该系统支持 15 种语言,并提供语音克隆功能,定价合理,适合高使用率产品。

Inworld AI 发布 TTS-1.5,用于实时、生产级语音代理

实时互动网
实时互动网 · 2026-01-22T03:11:13Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码