小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

研究发现,Qwen的语音合成技术中,跨句合成的音色稳定性只能通过语音克隆实现。虽然可以通过语气指令调节音色,但无法确保跨句一致性。使用seed参数仅能在同一句话中保持一致。最终,通过生成wav文件并转换为pt文件,实现了稳定的音色,并可进行二次语气控制,效果令人满意。希望这些经验能帮助其他AI研究者。

Qwen TTS 跨句音色稳定输出技术的研究

Andy Stewart
Andy Stewart · 2026-03-26T16:00:00Z

在调试小龙猫语音时遇到困难,发现千问TTS模型音色控制有限,句子间音色不稳定。明天将尝试语音克隆,若无效则考虑更换模型。实践是获取知识的关键。

Qwen TTS 研究

Andy Stewart
Andy Stewart · 2026-03-25T16:00:00Z
在线教程丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控

生成式AI的语音合成技术不断进步,Qwen3-TTS模型支持多语言、语音克隆和细粒度控制,已在HyperAI官网上线,用户可体验3秒语音克隆。

在线教程丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控

HyperAI超神经
HyperAI超神经 · 2026-03-03T05:52:33Z
Inworld AI 发布 TTS-1.5,用于实时、生产级语音代理

Inworld AI 推出了 TTS-1.5,显著提升了实时语音代理的延迟和质量。Max 型号音频延迟低于 250 毫秒,Mini 型号低于 130 毫秒,性能和稳定性分别提高 30% 和 40%。该系统支持 15 种语言,并提供语音克隆功能,定价合理,适合高使用率产品。

Inworld AI 发布 TTS-1.5,用于实时、生产级语音代理

实时互动网
实时互动网 · 2026-01-22T03:11:13Z
VoxCPM - 一种无分词的文本转语音(TTS)系统,支持上下文感知的语音合成……

VoxCPM是OpenBMB推出的开源无分词文本转语音系统,支持上下文感知和零-shot语音克隆,基于MiniCPM-4,适用于语音助手和媒体配音等高保真合成任务。

VoxCPM - 一种无分词的文本转语音(TTS)系统,支持上下文感知的语音合成……

云原生
云原生 · 2025-12-05T06:53:59Z
Modular:由Modular平台驱动的“TTS 1 Max”在人工分析中排名第一的语音模型

Inworld与Modular合作成功,'Inworld TTS 1 MAX'模型在语音排行榜中位列第一。该平台测试了超过100种LLM,评估其智能、速度和成本。两款模型支持12种语言,具备语音克隆和情感标签功能,提升了文本转语音的性能与效率。

Modular:由Modular平台驱动的“TTS 1 Max”在人工分析中排名第一的语音模型

Modular Blog
Modular Blog · 2025-11-07T00:00:00Z
在线教程丨端侧TTS新SOTA!NeuTTS-Air基于0.5B模型实现3秒音频克隆

NeuTTS-Air是一种高效的TTS模型,支持本地运行和即时语音克隆,降低了小型企业和个人开发者的使用门槛。该模型在超真实合成和实时推理方面表现优异,适用于手机和树莓派等设备,满足高质量TTS需求。

在线教程丨端侧TTS新SOTA!NeuTTS-Air基于0.5B模型实现3秒音频克隆

HyperAI超神经
HyperAI超神经 · 2025-11-04T09:02:47Z

Soul App开源了播客语音合成模型SoulX-Podcast,支持多轮对话和多方言,生成自然流畅的语音,尤其在语音克隆和长对话中表现优异,具备丰富的韵律和情感表达,推动AI与社交结合,提升用户体验。

Soul App开源播客语音合成模型,可流畅自然多轮语音对话,支持川粤豫等多方言与副语言风格

量子位
量子位 · 2025-10-29T08:35:27Z

德克萨斯理工大学研究团队提出了一种“惯性-语音验证”系统,通过结合下颌与脸颊运动的语音数据进行身份验证,增强安全性。该系统利用传感器捕捉口腔运动,有效抵御伪造攻击,适用于高风险场景。尽管效果显著,仍需扩大测试和微型化设备以适应不同环境。

智能头盔技术:对抗音频深度伪造的未来方向

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-10-23T21:30:02Z
Jichengdu在Replicate上发布的Cosyvoice模型初学者指南

Cosyvoice是由Jichengdu维护的多语言文本转语音系统,具备先进的语音克隆能力,支持低延迟和高质量输出,能够生成自然语音,适用于多种语言和风格。

Jichengdu在Replicate上发布的Cosyvoice模型初学者指南

DEV Community
DEV Community · 2025-05-26T01:48:18Z

MiniMax推出的Speech-02大模型在AI语音生成领域取得突破,获得全球权威评测第一,超越OpenAI等竞争对手。该模型支持多语言和个性化音色复刻,具备高效语音克隆能力,广泛应用于教育和智能硬件等领域,展现出强大的技术优势和市场潜力。

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

量子位
量子位 · 2025-05-16T07:46:45Z
🗣️ Mac版Spark-TTS一键启动:让您的文本焕发生机!✨

Spark-TTS是一款基于Qwen2.5模型的文本转语音系统,支持零-shot语音克隆,用户可轻松创建个性化声音。它架构简化、效率提升,支持中英文合成,适用于有声书和虚拟主持人等场景。Mac用户可一键启动,体验自然生动的语音合成。

🗣️ Mac版Spark-TTS一键启动:让您的文本焕发生机!✨

DEV Community
DEV Community · 2025-04-25T08:58:22Z
Hume 推出 Octave TTS:一种新的文本转语音模型,可根据定制的情绪创建自定义 AI 语音

Hume的Octave TTS系统在文本转语音领域取得显著进展,能够理解上下文和情感,生成更自然的语音。与传统系统不同,Octave通过语音设计和表演指令调整输出,适应不同场景。内部研究表明,其音频质量和自然度优于竞争对手,未来将推出语音克隆功能,提升AI语音技术的灵活性和表现力。

Hume 推出 Octave TTS:一种新的文本转语音模型,可根据定制的情绪创建自定义 AI 语音

实时互动网
实时互动网 · 2025-02-27T02:50:33Z
Step-Audio:首个可投入生产的开源智能语音交互框架

Step-Audio是一个由中国AI开发者创建的开源框架,旨在提升语音理解与生成的真实感。它支持多语言对话、情感语调和方言,拥有130B参数的多模态模型,集成语音识别和对话处理功能。该系统通过AI生成数据优化训练质量,适用于语音AI应用,具备语音克隆和实时交互能力。

Step-Audio:首个可投入生产的开源智能语音交互框架

DEV Community
DEV Community · 2025-02-17T23:20:37Z
Zyphra 推出 Zonos 测试版:具有高保真语音克隆功能的高度表现力 TTS 模型

Zonos-v0.1 是一款新发布的高保真文本转语音 (TTS) 模型,支持多语言,基于 200,000 小时语音数据训练,能够生成自然且富有表现力的语音,用户可控制音调和情感,优化了实时性能,适用于内容创作和辅助技术等领域。

Zyphra 推出 Zonos 测试版:具有高保真语音克隆功能的高度表现力 TTS 模型

实时互动网
实时互动网 · 2025-02-11T03:17:03Z
语音克隆技术正在破坏客户身份验证系统

人工智能语音克隆技术已成功绕过银行的语音识别系统,揭示了生物识别安全的不足。OpenAI建议企业逐步淘汰语音认证,转而采用其他认证方式或增强语音安全。Pindrop等公司提供防范语音克隆攻击的解决方案。

语音克隆技术正在破坏客户身份验证系统

实时互动网
实时互动网 · 2024-12-02T02:26:19Z
OuteTTS-0.1-350M 发布:无需外部适配器即可利用纯语言建模的新型 TTS 合成模型

OuteTTS-0.1-350M是一种新型文本转语音合成模型,基于LLaMa架构,简化了传统TTS的复杂性,具备零样本语音克隆功能,能够高效生成自然语音,适用于个性化应用。其小巧的参数量和高效性使其在设备上运行成为可能,推动了TTS技术的普及。

OuteTTS-0.1-350M 发布:无需外部适配器即可利用纯语言建模的新型 TTS 合成模型

实时互动网
实时互动网 · 2024-11-05T03:40:37Z

本文介绍了一个语音合成系统的开发,用于LIMMITS'24挑战赛,目标是建立一个具有语音克隆功能的多说话人、多语言的印度文本到语音系统。系统使用挑战数据进行训练,并对目标发言人进行少样本语音克隆微调。评估包括对七种语言进行主观测试,评估自然度和发言人相似性。系统使用了VITS2架构,结合多语言ID和BERT模型来增强上下文语言理解。在第一阶段,模型的发言人相似性得分为4.02,在允许使用额外数据的第二阶段,得分为4.17。

提升尼泊尔语语音克隆技术:利用迁移学习解决低资源语言问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-19T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码