车圈最大AI「黑马」吉利:自研语音大模型登顶,性能超SOTA 10%

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

吉利汽车在语音合成领域取得突破,自研HAM-TTS模型在发音准确性、自然度和相似度上超越了VALL-E。该模型通过分层声学建模和数据增强,支持多种方言和跨语种合成,提升了智能汽车的语音交互体验,展示了吉利在AI技术上的领先地位。

🎯

关键要点

  • 吉利汽车在语音合成领域取得突破,自研HAM-TTS模型在发音准确性、自然度和相似度上超越了VALL-E。

  • HAM-TTS模型支持多种方言和跨语种合成,提升了智能汽车的语音交互体验。

  • 该模型通过分层声学建模和数据增强,显著改善了语音合成的准确性和风格一致性。

  • 吉利的语音大模型在声音复刻能力上,最短仅需3秒样本输入,提升了用户体验。

  • 吉利在传统TTS模型中引入了分层声学建模方法,解决了发音准确率低和风格不一致的问题。

  • 通过结合真实和合成数据训练,HAM-TTS模型的性能得到了显著提升。

  • 吉利的技术能力在智能汽车领域表现突出,推动了智能座舱的体验提升。

  • 吉利的AI大模型体系包括语言大模型、多模态大模型等,构建了智能汽车的AI技术底座。

  • 吉利在算力方面的扩容,体现了其在智能化领域的技术领先地位。

  • 吉利在卫星、芯片、操作系统等核心科技领域也展现出龙头角色,值得重新认知。

延伸问答

吉利的HAM-TTS模型相比VALL-E有哪些优势?

HAM-TTS模型在发音准确性、自然度和相似度上超越了VALL-E,字符错误率下降2.3%。

HAM-TTS模型如何支持多种方言和跨语种合成?

该模型支持四川话、粤语、东北话等多种方言合成,并能流畅进行中文和英文的语音合成。

吉利是如何提升语音合成的准确性和风格一致性的?

吉利通过引入分层声学建模和数据增强策略,改善了发音准确率和风格一致性。

HAM-TTS模型的声音复刻能力如何?

该模型最短仅需3秒样本输入,显著提升了声音复刻能力。

吉利在智能汽车领域的技术能力体现在哪些方面?

吉利在智能汽车领域展现出算法能力、大模型体系化能力和数据能力,推动了智能座舱体验提升。

吉利的AI大模型体系包括哪些内容?

吉利的AI大模型体系包括语言大模型、多模态大模型和数字孪生大模型等多个基础模型。

🏷️

标签

➡️

继续阅读