开源数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s
💡
原文中文,约4800字,阅读约需12分钟。
📝
内容提要
阿里巴巴推出开源数字人实时对话Demo,支持语音输入和自定义形象,对话延迟低至3秒。该项目采用模块化设计,适用于直播和新闻播报,使用Gradio框架便于快速部署。各模块包括语音识别、语言模型、文本转语音和说话人生成,提升实时对话体验。
🎯
关键要点
-
阿里巴巴推出开源数字人实时对话Demo,支持语音输入和自定义形象。
-
对话首包延迟可低至3秒,适用于直播、新闻播报等场景。
-
项目采用模块化设计,使用Gradio框架便于快速部署。
-
各模块包括语音识别、语言模型、文本转语音和说话人生成,提升实时对话体验。
-
现有热门开源数字人项目存在实时对话和流式输出等问题。
-
本项目实现了支持语音输入和实时对话的开源数字人Demo。
-
语音识别模块使用FunASR,提供高精度、高效率的语音识别服务。
-
大语言模型模块使用通义千问,支持单轮和互动对话模式。
-
文本转语音模块使用GPT-SoVITS,优化了推理速度,适合实时对话。
-
说话人生成模块使用MuseTalk,支持唇形同步和高帧率视频生成。
-
系统架构采用流式输出的并行流水线,降低用户等待时间。
-
项目计划进行链路优化和端到端语音聊天的更新。
-
提供在线demo供用户试用,链接和代码仓库可供访问。
➡️