车圈最大AI「黑马」吉利:自研语音大模型登顶,性能超SOTA 10%
内容提要
吉利汽车在语音合成领域取得突破,自研HAM-TTS模型在发音准确性、自然度和相似度上超越了VALL-E。该模型通过分层声学建模和数据增强,支持多种方言和跨语种合成,提升了智能汽车的语音交互体验,展示了吉利在AI技术上的领先地位。
关键要点
-
吉利汽车在语音合成领域取得突破,自研HAM-TTS模型在发音准确性、自然度和相似度上超越了VALL-E。
-
HAM-TTS模型支持多种方言和跨语种合成,提升了智能汽车的语音交互体验。
-
该模型通过分层声学建模和数据增强,显著改善了语音合成的准确性和风格一致性。
-
吉利的语音大模型在声音复刻能力上,最短仅需3秒样本输入,提升了用户体验。
-
吉利在传统TTS模型中引入了分层声学建模方法,解决了发音准确率低和风格不一致的问题。
-
通过结合真实和合成数据训练,HAM-TTS模型的性能得到了显著提升。
-
吉利的技术能力在智能汽车领域表现突出,推动了智能座舱的体验提升。
-
吉利的AI大模型体系包括语言大模型、多模态大模型等,构建了智能汽车的AI技术底座。
-
吉利在算力方面的扩容,体现了其在智能化领域的技术领先地位。
-
吉利在卫星、芯片、操作系统等核心科技领域也展现出龙头角色,值得重新认知。
延伸问答
吉利的HAM-TTS模型相比VALL-E有哪些优势?
HAM-TTS模型在发音准确性、自然度和相似度上超越了VALL-E,字符错误率下降2.3%。
HAM-TTS模型如何支持多种方言和跨语种合成?
该模型支持四川话、粤语、东北话等多种方言合成,并能流畅进行中文和英文的语音合成。
吉利是如何提升语音合成的准确性和风格一致性的?
吉利通过引入分层声学建模和数据增强策略,改善了发音准确率和风格一致性。
HAM-TTS模型的声音复刻能力如何?
该模型最短仅需3秒样本输入,显著提升了声音复刻能力。
吉利在智能汽车领域的技术能力体现在哪些方面?
吉利在智能汽车领域展现出算法能力、大模型体系化能力和数据能力,推动了智能座舱体验提升。
吉利的AI大模型体系包括哪些内容?
吉利的AI大模型体系包括语言大模型、多模态大模型和数字孪生大模型等多个基础模型。