小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Free CPU教程丨狂揽8.8k stars,TTS模型Supertonic-3参数规模仅约99M,支持31种语言

随着生成式AI向多模态发展,Supertone团队推出的Supertonic-3模型支持31种语言,具备实时语音合成能力,参数仅为9900万。该模型可在CPU环境中运行,无需云API,适合开发本地AI助手和语音播报系统。

Free CPU教程丨狂揽8.8k stars,TTS模型Supertonic-3参数规模仅约99M,支持31种语言

HyperAI超神经
HyperAI超神经 · 2026-05-20T10:55:40Z
阶跃最新语音模型位列 Artificial Analysis 评测榜中国第一

阶跃语音生成模型StepAudio 2.5 TTS在全球TTS评测中排名第三,展现出自然的语音表达能力,适用于客户服务和知识分享等场景。阶跃还推出了StepAudio 2.5系列模型,涵盖语音生成、识别和实时交互,强调“有温度”的AI体验,已在多个核心场景实现商业化落地。

阶跃最新语音模型位列 Artificial Analysis 评测榜中国第一

量子位
量子位 · 2026-05-09T10:29:31Z

Voxtral TTS是Mistral AI推出的开源文本转语音模型,支持九种语言,能够在三秒音频基础上克隆声音,具有70毫秒的低延迟和9.7倍的实时因子,适合实时对话应用。用户可通过Mistral API或自托管方式使用,提供灵活的商业和非商业使用选项。

Voxtral TTS开源文本转语音模型

KDnuggets
KDnuggets · 2026-05-01T12:00:09Z
OpenClaw v2026.4.25更新:语音角色、TTS升级中文顺畅、插件加速

OpenClaw于2026年4月25日进行了重要更新,提升了AI语音合成能力,增加了语音人格化功能,使声音更自然、情感丰富。优化了插件系统,确保快速启动和稳定更新,监控系统实现透明化以保护隐私。简化了安装流程,降低了出错风险。整体上,OpenClaw从实验性工具升级为稳定的工程化平台,显著提升用户体验。

OpenClaw v2026.4.25更新:语音角色、TTS升级中文顺畅、插件加速

极道
极道 · 2026-04-27T22:04:00Z
突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团LongCat团队发布了LongCat-AudioDiT模型,采用全新的端到端文本转语音技术,减少信息损失。该模型在Seed基准测试中表现优异,取得最佳的说话人相似度和可懂度,证明了在波形潜空间生成语音的有效性。LongCat-AudioDiT以简化架构和高保真合成为目标,已开源,期待推动语音生成技术的发展。

突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团技术团队
美团技术团队 · 2026-04-20T00:00:00Z
零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

小米人工智能实验室推出了OmniVoice,这是一款支持600多种语言的零样本文本转语音(TTS)模型。该模型采用单阶段框架,直接将文本映射为声学标记,基于58.1万小时的开源数据训练,广泛覆盖语言,并提升了对低资源语言的支持。

零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

HyperAI超神经
HyperAI超神经 · 2026-04-17T08:28:37Z
OpenClaw v2026.4.15发布:接入Opus4.7、Gemini TTS、云存储

OpenClaw 2026.4.15版本更新了多个核心功能,解决了AI工程中的上下文膨胀、记忆管理和工具链不稳定等问题。新增了对Anthropic Opus 4.7和Gemini TTS的支持,优化了内存系统,增强了模型选择的便捷性和安全性,并引入了云存储支持,提升了长期记忆系统的可扩展性和开发者体验。整体上,OpenClaw朝着长期稳定运行的方向发展。

OpenClaw v2026.4.15发布:接入Opus4.7、Gemini TTS、云存储

极道
极道 · 2026-04-17T00:42:00Z
Google AI 发布 Gemini 3.1 Flash TTS:表现力强、可控性高的 AI 语音技术新标杆

谷歌推出了Gemini 3.1 Flash TTS,这是一个改进的文本转语音模型,支持70多种语言,具备自然语言音频标签和多说话人对话功能。该模型在行业基准测试中得分1211,提供复杂的控制层,允许开发者根据场景调整语气、语速和口音。同时,集成的SynthID水印技术可识别AI生成内容,确保信息透明。

Google AI 发布 Gemini 3.1 Flash TTS:表现力强、可控性高的 AI 语音技术新标杆

实时互动网
实时互动网 · 2026-04-16T03:02:56Z

Gemini 3.1 Flash TTS是最新的AI语音模型,支持70多种语言,用户可通过音频标签调整语音风格和节奏。所有生成的音频均带有SynthID水印,以防止误信息传播。开发者可在Google AI Studio中使用该模型,创造高保真语音体验。

Gemini 3.1 Flash TTS:下一代富有表现力的AI语音

Google DeepMind Blog
Google DeepMind Blog · 2026-04-15T16:03:19Z

谷歌推出了Gemini 3.1 Flash TTS,这是最新的文本转语音模型,具备更好的可控性、表现力和音质,支持70多种语言,并提供音频标签以控制语音风格和节奏。所有生成的音频都带有不可见水印SynthID,以防止虚假信息传播。

Gemini 3.1 Flash TTS:下一代富有表现力的人工智能语音

The Keyword
The Keyword · 2026-04-15T15:00:00Z
仅需 3 秒音频实现「配音自由」,Mistral 开源语音大模型 Voxtral-4B-TTS-2603;多项全能!Capybara 一站式搞定图、视频生成与指令编辑

Mistral发布了Voxtral-4B-TTS-2603模型,旨在提升多语言语音生成的自然度和效率。该模型结合了语义自回归和声学流匹配,支持低延迟本地运行,展现出良好的泛化能力。

仅需 3 秒音频实现「配音自由」,Mistral 开源语音大模型 Voxtral-4B-TTS-2603;多项全能!Capybara 一站式搞定图、视频生成与指令编辑

HyperAI超神经
HyperAI超神经 · 2026-04-08T06:29:50Z
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

音频生成技术正向端到端生成演进。美团LongCat团队推出LongCat-AudioDiT,直接在波形潜空间进行文本转语音,避免信息损失。该模型在Seed基准测试中表现优异,取得了SOTA的说话人相似度和可懂度,展现出强大的零样本语音克隆能力。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

实时互动网
实时互动网 · 2026-04-02T01:48:34Z

研究发现,Qwen的语音合成技术中,跨句合成的音色稳定性只能通过语音克隆实现。虽然可以通过语气指令调节音色,但无法确保跨句一致性。使用seed参数仅能在同一句话中保持一致。最终,通过生成wav文件并转换为pt文件,实现了稳定的音色,并可进行二次语气控制,效果令人满意。希望这些经验能帮助其他AI研究者。

Qwen TTS 跨句音色稳定输出技术的研究

Andy Stewart
Andy Stewart · 2026-03-26T16:00:00Z

在调试小龙猫语音时遇到困难,发现千问TTS模型音色控制有限,句子间音色不稳定。明天将尝试语音克隆,若无效则考虑更换模型。实践是获取知识的关键。

Qwen TTS 研究

Andy Stewart
Andy Stewart · 2026-03-25T16:00:00Z
MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

MOSS-TTS系列是MOSI.AI与OpenMOSS联合推出的多模型语音生成工具,克服了单一模型在复杂场景中的局限,支持高保真语音、对话和实时交互,适用于多种语言和风格切换。

MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

HyperAI超神经
HyperAI超神经 · 2026-03-06T06:01:17Z
在线教程丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控

生成式AI的语音合成技术不断进步,Qwen3-TTS模型支持多语言、语音克隆和细粒度控制,已在HyperAI官网上线,用户可体验3秒语音克隆。

在线教程丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控

HyperAI超神经
HyperAI超神经 · 2026-03-03T05:52:33Z

我开发了一个基于Microsoft Edge TTS API的免费图形化文字转语音工具,名为edge-tts_tk_gui。该工具使用Python和Tkinter构建,支持多种语音选择、批量处理和音频播放,操作简单,适合各类用户。项目展示了AI在编程中的应用,代码结构清晰,易于维护。

我用大模型写了一个Edge TTS图形化工具

碎言博客
碎言博客 · 2026-02-26T08:06:37Z
想让 TTS 更具情感和可控性?试试 GLM‑TTS

GLM-TTS 是一个基于多奖励强化学习的文本转语音系统,支持零样本情感表达和多维度控制,旨在生成自然且富有情感的语音,适用于语音助手和有声书等场景,采用开源许可,便于社区使用与扩展。

想让 TTS 更具情感和可控性?试试 GLM‑TTS

dotNET跨平台
dotNET跨平台 · 2026-02-04T23:46:07Z
2026年2月1日Python Hub周刊摘要

本周Python亮点包括口袋TTS项目、卫星追踪方法、Python数据类冷知识、Polars代码转SQL讨论及NumPy教程。此外,Rust驱动的FM-index实现了快速子串搜索,Django 6.0的bug由单个测试揭示。新项目有Opticol、Paper2Any和Violit。

2026年2月1日Python Hub周刊摘要

Python Hub Weekly
Python Hub Weekly · 2026-02-01T18:00:00Z
Inworld AI 发布 TTS-1.5,用于实时、生产级语音代理

Inworld AI 推出了 TTS-1.5,显著提升了实时语音代理的延迟和质量。Max 型号音频延迟低于 250 毫秒,Mini 型号低于 130 毫秒,性能和稳定性分别提高 30% 和 40%。该系统支持 15 种语言,并提供语音克隆功能,定价合理,适合高使用率产品。

Inworld AI 发布 TTS-1.5,用于实时、生产级语音代理

实时互动网
实时互动网 · 2026-01-22T03:11:13Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码