量子位 ·

车圈最大AI「黑马」吉利：自研语音大模型登顶，性能超SOTA 10%

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

吉利汽车在语音合成领域取得突破，自研HAM-TTS模型在发音准确性、自然度和相似度上超越了VALL-E。该模型通过分层声学建模和数据增强，支持多种方言和跨语种合成，提升了智能汽车的语音交互体验，展示了吉利在AI技术上的领先地位。

🎯

关键要点

吉利汽车在语音合成领域取得突破，自研HAM-TTS模型在发音准确性、自然度和相似度上超越了VALL-E。
HAM-TTS模型支持多种方言和跨语种合成，提升了智能汽车的语音交互体验。
该模型通过分层声学建模和数据增强，显著改善了语音合成的准确性和风格一致性。
吉利的语音大模型在声音复刻能力上，最短仅需3秒样本输入，提升了用户体验。
吉利在传统TTS模型中引入了分层声学建模方法，解决了发音准确率低和风格不一致的问题。
通过结合真实和合成数据训练，HAM-TTS模型的性能得到了显著提升。
吉利的技术能力在智能汽车领域表现突出，推动了智能座舱的体验提升。
吉利的AI大模型体系包括语言大模型、多模态大模型等，构建了智能汽车的AI技术底座。
吉利在算力方面的扩容，体现了其在智能化领域的技术领先地位。
吉利在卫星、芯片、操作系统等核心科技领域也展现出龙头角色，值得重新认知。

❓

延伸问答

吉利的HAM-TTS模型相比VALL-E有哪些优势？

HAM-TTS模型在发音准确性、自然度和相似度上超越了VALL-E，字符错误率下降2.3%。

HAM-TTS模型如何支持多种方言和跨语种合成？

该模型支持四川话、粤语、东北话等多种方言合成，并能流畅进行中文和英文的语音合成。

吉利是如何提升语音合成的准确性和风格一致性的？

吉利通过引入分层声学建模和数据增强策略，改善了发音准确率和风格一致性。

HAM-TTS模型的声音复刻能力如何？

该模型最短仅需3秒样本输入，显著提升了声音复刻能力。

吉利在智能汽车领域的技术能力体现在哪些方面？

吉利在智能汽车领域展现出算法能力、大模型体系化能力和数据能力，推动了智能座舱体验提升。

吉利的AI大模型体系包括哪些内容？

吉利的AI大模型体系包括语言大模型、多模态大模型和数字孪生大模型等多个基础模型。

🏷️

标签

AI技术 HAM-TTS ai 吉利吉利汽车大模型智能汽车语音合成

➡️

继续阅读

2026智源大会开幕：推动AI、物理世界和生命科学“三体互动”
2026年北京智源大会聚焦AI前沿技术，汇聚全球顶尖专家与青年科学家，探讨智能体与世界模型的发展。智源研究院发布悟界系列大模型，推动AI从数字世界向物理世...
2026 年，AI 长出了四个轮子，驶向物理世界
近年来，人工智能正在向物理世界迁移。赛豆科技推出的AIVA品牌强调AI在汽车设计中的重要性，改变了传统的汽车制造模式。AIVA通过深度学习用户需求，提升驾...
仅限美国人的危险技术
美国政府对Anthropic实施出口管制，限制其AI技术对外国人的访问，反映出美国的民族主义和对外国人的不信任。文章呼吁欧洲增强自身能力，避免依赖美国，推...
那就再开一次落日飞车——我的二零二五年
2025年，作者回顾了一年的经历，感受到时间的流逝和生活的变化。AI技术迅速发展，开源大语言模型的出现降低了使用成本，推动了AI在各领域的应用。尽管编程工...
AI 博客问题挑战
文章讨论了作者对人工智能（AI）模型的看法，特别是深度学习和语言模型的演变。作者认为AI在提升生产力方面具有潜力，但也对其对人类福祉的影响表示担忧。尽管存...
如何在自己的硬件上使用QVAC实现私有文本转语音
本文介绍了如何使用QVAC SDK在移动设备上实现离线文本转语音（TTS）功能。由于云服务成本高和延迟问题，作者开发了本地解决方案。QVAC允许在设备上直...