Bark – 高度逼真的开源、生成式文字转语音模型

Bark – 高度逼真的开源、生成式文字转语音模型

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

Bark是一款开源的生成式文字转语音模型,支持多语言语音、音乐、背景噪音等音效,英语效果优秀,中文效果一般。Bark使用MIT许可证,支持商用,可通过下载或官方排队体验。该模型不同于传统的TTS模型,可以根据文字描述生成意想不到的内容。

🎯

关键要点

  • Bark是一款开源的生成式文字转语音模型。
  • 支持多语言语音、音乐、背景噪音等音效。
  • 英语效果优秀,中文效果一般。
  • 可以生成笑、叹息、哭泣、喘息声等声音。
  • 支持通过文本生成歌曲。
  • 开源模型,用户可以下载或通过官方排队体验。
  • 使用MIT许可证,允许商用。
  • 经过CPU和GPU测试,兼容pytorch 2.0+,CUDA 11.7和CUDA 12.0。
  • Bark是完全生成式的文本-音频模型,不同于传统的TTS模型。
➡️

继续阅读