开源数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s

💡 原文中文,约4800字,阅读约需12分钟。
📝

内容提要

阿里巴巴推出开源数字人实时对话Demo,支持语音输入和自定义形象,对话延迟低至3秒。该项目采用模块化设计,适用于直播和新闻播报,使用Gradio框架便于快速部署。各模块包括语音识别、语言模型、文本转语音和说话人生成,提升实时对话体验。

🎯

关键要点

  • 阿里巴巴推出开源数字人实时对话Demo,支持语音输入和自定义形象。

  • 对话首包延迟可低至3秒,适用于直播、新闻播报等场景。

  • 项目采用模块化设计,使用Gradio框架便于快速部署。

  • 各模块包括语音识别、语言模型、文本转语音和说话人生成,提升实时对话体验。

  • 现有热门开源数字人项目存在实时对话和流式输出等问题。

  • 本项目实现了支持语音输入和实时对话的开源数字人Demo。

  • 语音识别模块使用FunASR,提供高精度、高效率的语音识别服务。

  • 大语言模型模块使用通义千问,支持单轮和互动对话模式。

  • 文本转语音模块使用GPT-SoVITS,优化了推理速度,适合实时对话。

  • 说话人生成模块使用MuseTalk,支持唇形同步和高帧率视频生成。

  • 系统架构采用流式输出的并行流水线,降低用户等待时间。

  • 项目计划进行链路优化和端到端语音聊天的更新。

  • 提供在线demo供用户试用,链接和代码仓库可供访问。

➡️

继续阅读