量子位 ·

开源数字人实时对话：形象可自定义，支持语音输入，对话首包延迟可低至3s

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

阿里巴巴推出开源数字人实时对话Demo，支持语音输入和自定义形象，对话延迟低至3秒。该项目采用模块化设计，适用于直播和新闻播报，使用Gradio框架便于快速部署。各模块包括语音识别、语言模型、文本转语音和说话人生成，提升实时对话体验。

🎯

关键要点

阿里巴巴推出开源数字人实时对话Demo，支持语音输入和自定义形象。
对话首包延迟可低至3秒，适用于直播、新闻播报等场景。
项目采用模块化设计，使用Gradio框架便于快速部署。
各模块包括语音识别、语言模型、文本转语音和说话人生成，提升实时对话体验。
现有热门开源数字人项目存在实时对话和流式输出等问题。
本项目实现了支持语音输入和实时对话的开源数字人Demo。
语音识别模块使用FunASR，提供高精度、高效率的语音识别服务。
大语言模型模块使用通义千问，支持单轮和互动对话模式。
文本转语音模块使用GPT-SoVITS，优化了推理速度，适合实时对话。
说话人生成模块使用MuseTalk，支持唇形同步和高帧率视频生成。
系统架构采用流式输出的并行流水线，降低用户等待时间。
项目计划进行链路优化和端到端语音聊天的更新。
提供在线demo供用户试用，链接和代码仓库可供访问。

🏷️

继续阅读

LWiAI播客第242期 - ChatGPT图像2.0，Qwen 3.6 Max，Kimi-K2.6
本期播客讨论了最新的AI新闻，包括OpenAI发布的ChatGPT图像2.0模型，生成文本和截图的能力显著提升；阿里巴巴推出Qwen 3.6 Max，转为...
Meta公司放弃开源Llama，转向专有的Muse Spark
Meta公司宣布其新AI模型Muse Spark将取代已被放弃的Llama。Muse Spark采用全新架构，无法与Llama迁移，Llama用户需寻找替...
扬·维雷梅维奇：开源不会消亡，它只是缺乏资金支持。
开源软件不会消亡，但面临资金不足的问题。许多项目因缺乏资金支持而停滞，开发者需要寻找可持续的商业模式，以确保开源项目的长期发展。
69个开源AI工具大盘点2026年4月版 - 省下每年5万美金订阅费的开源方案
2026年4月，推荐了69个开源AI工具，包括Ollama、vLLM、LM Studio等，适用于本地运行大模型和推理引擎，帮助用户每年节省高达5万美元的...
本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集
Privacy Filter 是 OpenAI 开源的双向标记分类模型，专门用于检测和屏蔽文本中的个人身份信息。该模型基于小型预训练架构，采用高效的片段解码方式。
国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...

开源数字人实时对话：形象可自定义，支持语音输入，对话首包延迟可低至3s

内容提要

关键要点

标签

继续阅读