车圈最大AI「黑马」吉利:自研语音大模型登顶,性能超SOTA 10%
💡
原文中文,约3100字,阅读约需8分钟。
📝
内容提要
吉利汽车在语音合成领域取得突破,自研HAM-TTS模型在发音准确性、自然度和相似度上超越了VALL-E。该模型通过分层声学建模和数据增强,支持多种方言和跨语种合成,提升了智能汽车的语音交互体验,展示了吉利在AI技术上的领先地位。
🎯
关键要点
- 吉利汽车在语音合成领域取得突破,自研HAM-TTS模型在发音准确性、自然度和相似度上超越了VALL-E。
- HAM-TTS模型支持多种方言和跨语种合成,提升了智能汽车的语音交互体验。
- 该模型通过分层声学建模和数据增强,显著改善了语音合成的准确性和风格一致性。
- 吉利的语音大模型在声音复刻能力上,最短仅需3秒样本输入,提升了用户体验。
- 吉利在传统TTS模型中引入了分层声学建模方法,解决了发音准确率低和风格不一致的问题。
- 通过结合真实和合成数据训练,HAM-TTS模型的性能得到了显著提升。
- 吉利的技术能力在智能汽车领域表现突出,推动了智能座舱的体验提升。
- 吉利的AI大模型体系包括语言大模型、多模态大模型等,构建了智能汽车的AI技术底座。
- 吉利在算力方面的扩容,体现了其在智能化领域的技术领先地位。
- 吉利在卫星、芯片、操作系统等核心科技领域也展现出龙头角色,值得重新认知。
➡️