Kyutai 发布 Hibiki:一款 27 亿 S2ST 和语音转文本翻译产品,具有接近人类水平的音质和语音转换功能

Kyutai 发布 Hibiki:一款 27 亿 S2ST 和语音转文本翻译产品,具有接近人类水平的音质和语音转换功能

💡 原文中文,约1200字,阅读约需3分钟。
📝

内容提要

Hibiki是一个实时语音翻译模型,结合语音识别、机器翻译和文本转语音,支持法语到英语翻译。其独特架构和上下文对齐技术提升了翻译质量和说话人保真度,适合实时应用。Hibiki-M优化了智能手机性能,具备开源潜力。

🎯

关键要点

  • Hibiki是一个实时语音翻译模型,结合语音识别、机器翻译和文本转语音。
  • Hibiki支持法语到英语翻译,旨在保留语音特征,适合实时应用。
  • 传统的翻译方法存在复合错误和处理速度慢的问题,不适合现场翻译。
  • Hibiki拥有27亿个参数,专为实时语音转语音翻译和语音转文本翻译设计。
  • Hibiki-M是精简版,优化了智能手机上的实时性能。
  • Hibiki采用仅解码器架构,使用多流语言模型进行语音处理。
  • 该模型基于700万小时的英语音频和45万小时的法语进行训练,提升了稳健性。
  • Hibiki在翻译质量和说话人保真度方面表现优异,ASR-BLEU得分为30.5。
  • Hibiki的自然度评估接近专业人工翻译,且在说话人相似度方面表现良好。
  • Hibiki提供开源版本,有潜力为多语言通信的进步做出贡献。

延伸问答

Hibiki的主要功能是什么?

Hibiki是一款实时语音翻译模型,结合语音识别、机器翻译和文本转语音,支持法语到英语翻译。

Hibiki与传统翻译方法相比有什么优势?

Hibiki通过上下文对齐技术和仅解码器架构,减少了复合错误,提高了翻译质量和说话人保真度,适合实时应用。

Hibiki的训练数据来源是什么?

Hibiki基于700万小时的英语音频、45万小时的法语和4万小时的合成并行数据进行训练。

Hibiki的性能评估结果如何?

Hibiki的ASR-BLEU得分为30.5,人工评估自然度为3.73/5,接近专业人工翻译的4.12/5。

Hibiki-M与Hibiki有什么不同?

Hibiki-M是Hibiki的精简版,拥有17亿个参数,优化了智能手机上的实时性能。

Hibiki的开源版本有什么潜力?

Hibiki的开源版本有潜力为多语言通信的进步做出贡献,促进更广泛的应用和开发。

➡️

继续阅读