沉浸式翻译 immersive translate

NVIDIA发布PersonaPlex-7B-v1：专为自然全双工对话设计的实时语音到语音模型

实时互动网 ·

NVIDIA发布PersonaPlex-7B-v1：专为自然全双工对话设计的实时语音到语音模型

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

NVIDIA 发布了 PersonaPlex-7B-v1，这是一个全双工语音对话模型，采用单一 Transformer 架构，支持自然语音交互、插话和重叠对话。该模型通过双流配置处理用户音频和智能体语音，结合真实与合成对话进行训练，评估结果显示其在对话动态和任务遵守方面表现优异。

🎯

关键要点

NVIDIA 发布了 PersonaPlex-7B-v1，这是一个全双工语音对话模型。
PersonaPlex 采用单一 Transformer 架构，支持自然语音交互、插话和重叠对话。
该模型通过双流配置处理用户音频和智能体语音，提升对话动态和任务遵守能力。
PersonaPlex 使用神经编解码器编码连续音频，自回归地预测文本和音频标记。
模型拥有 70 亿个参数，基于 Moshi 网络架构，结合卷积神经网络和 Transformer 层。
训练数据融合了真实对话和合成对话，确保自然对话反馈和任务执行情况分开。
在 FullDuplexBench 和 ServiceDuplexBench 测试中，PersonaPlex 实现了高接管率和低延迟。
该模型的代码采用 MIT 许可，权重采用 NVIDIA 开放模型许可。

🏷️

标签

NVIDIA PersonaPlex-7B-v1 Transformer 自然交互语音对话