小红花·文摘 - 小红花技术领袖俱乐部

Voicebox免费开源AI语音克隆 | 本地替代 ElevenLabs

Voicebox免费开源AI语音克隆 | 本地替代 ElevenLabs

极道 ·

AI 语音克隆：背后的技术、研发者以及发展方向

AI 语音克隆：背后的技术、研发者以及发展方向

实时互动网 ·

在线教程丨支持600+语言，小米开源OmniVoice：仅需3-10秒参考音频实现语音克隆

在线教程丨支持600+语言，小米开源OmniVoice：仅需3-10秒参考音频实现语音克隆

HyperAI超神经 ·

超600种语言，一个模型全搞定! 小米开源 OmniVoice 多语言语音克隆 TTS

超600种语言，一个模型全搞定! 小米开源 OmniVoice 多语言语音克隆 TTS

小米云技术 ·

研究发现，Qwen的语音合成技术中，跨句合成的音色稳定性只能通过语音克隆实现。虽然可以通过语气指令调节音色，但无法确保跨句一致性。使用seed参数仅能在同一句话中保持一致。最终，通过生成wav文件并转换为pt文件，实现了稳定的音色，并可进行二次语气控制，效果令人满意。希望这些经验能帮助其他AI研究者。

Qwen TTS 跨句音色稳定输出技术的研究

Andy Stewart ·

在调试小龙猫语音时遇到困难，发现千问TTS模型音色控制有限，句子间音色不稳定。明天将尝试语音克隆，若无效则考虑更换模型。实践是获取知识的关键。

Qwen TTS 研究

Andy Stewart ·

在线教程丨基于500万小时语音数据，Qwen3-TTS实现3秒语音克隆及精细调控

在线教程丨基于500万小时语音数据，Qwen3-TTS实现3秒语音克隆及精细调控

HyperAI超神经 ·

Inworld AI 发布 TTS-1.5，用于实时、生产级语音代理

Inworld AI 发布 TTS-1.5，用于实时、生产级语音代理

实时互动网 ·

VoxCPM - 一种无分词的文本转语音（TTS）系统，支持上下文感知的语音合成……

VoxCPM - 一种无分词的文本转语音（TTS）系统，支持上下文感知的语音合成……

云原生 ·

Modular：由Modular平台驱动的“TTS 1 Max”在人工分析中排名第一的语音模型

Modular：由Modular平台驱动的“TTS 1 Max”在人工分析中排名第一的语音模型

Modular Blog ·

在线教程丨端侧TTS新SOTA！NeuTTS-Air基于0.5B模型实现3秒音频克隆

在线教程丨端侧TTS新SOTA！NeuTTS-Air基于0.5B模型实现3秒音频克隆

HyperAI超神经 ·

Soul App开源了播客语音合成模型SoulX-Podcast，支持多轮对话和多方言，生成自然流畅的语音，尤其在语音克隆和长对话中表现优异，具备丰富的韵律和情感表达，推动AI与社交结合，提升用户体验。

Soul App开源播客语音合成模型，可流畅自然多轮语音对话，支持川粤豫等多方言与副语言风格

量子位 ·

德克萨斯理工大学研究团队提出了一种“惯性-语音验证”系统，通过结合下颌与脸颊运动的语音数据进行身份验证，增强安全性。该系统利用传感器捕捉口腔运动，有效抵御伪造攻击，适用于高风险场景。尽管效果显著，仍需扩大测试和微型化设备以适应不同环境。

智能头盔技术：对抗音频深度伪造的未来方向

FreeBuf网络安全行业门户 ·

Jichengdu在Replicate上发布的Cosyvoice模型初学者指南

Jichengdu在Replicate上发布的Cosyvoice模型初学者指南

DEV Community ·

MiniMax推出的Speech-02大模型在AI语音生成领域取得突破，获得全球权威评测第一，超越OpenAI等竞争对手。该模型支持多语言和个性化音色复刻，具备高效语音克隆能力，广泛应用于教育和智能硬件等领域，展现出强大的技术优势和市场潜力。

超越OpenAI、拿下全球双料第一，“AI吴彦祖”背后大模型SOTA了！

量子位 ·

🗣️ Mac版Spark-TTS一键启动：让您的文本焕发生机！✨

🗣️ Mac版Spark-TTS一键启动：让您的文本焕发生机！✨

DEV Community ·

Hume 推出 Octave TTS：一种新的文本转语音模型，可根据定制的情绪创建自定义 AI 语音

Hume 推出 Octave TTS：一种新的文本转语音模型，可根据定制的情绪创建自定义 AI 语音

实时互动网 ·

Step-Audio：首个可投入生产的开源智能语音交互框架

Step-Audio：首个可投入生产的开源智能语音交互框架

DEV Community ·

Zyphra 推出 Zonos 测试版：具有高保真语音克隆功能的高度表现力 TTS 模型

Zyphra 推出 Zonos 测试版：具有高保真语音克隆功能的高度表现力 TTS 模型

实时互动网 ·

语音克隆技术正在破坏客户身份验证系统

语音克隆技术正在破坏客户身份验证系统

实时互动网 ·