实时互动网 ·

NVIDIA发布PersonaPlex-7B-v1：专为自然全双工对话设计的实时语音到语音模型

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

NVIDIA 发布了 PersonaPlex-7B-v1，这是一个全双工语音对话模型，采用单一 Transformer 架构，支持自然语音交互、插话和重叠对话。该模型通过双流配置处理用户音频和智能体语音，结合真实与合成对话进行训练，评估结果显示其在对话动态和任务遵守方面表现优异。

🎯

🔎

PersonaPlex-7B-v1 通过单一的 Transformer 架构实现全双工对话，克服了传统语音助手的延迟问题。这种设计使得用户和智能体可以同时发言，提升了对话的自然性和流畅度，尤其在需要快速反应的场景中表现尤为突出。

该模型的训练数据结合了真实对话和合成对话，确保了对话的自然反馈和任务执行的准确性。真实对话来自于大量的通话记录，而合成对话则涵盖了多种角色和场景，这种多样性使得模型在不同应用场景中都能表现良好。

PersonaPlex 在 FullDuplexBench 和 ServiceDuplexBench 测试中表现优异，接管率和延迟指标是评估对话动态的重要标准。高接管率意味着模型能够更好地处理用户的插话和中断，这对于提升用户体验至关重要。

❓

PersonaPlex-7B-v1是一个全双工语音对话模型，支持自然语音交互、插话和重叠对话。

该模型基于Moshi网络架构，采用单一的Transformer架构。

在FullDuplexBench和ServiceDuplexBench测试中，PersonaPlex实现了高接管率和低延迟，表现优异。

训练数据融合了真实对话和合成对话，真实对话来自Fisher英语语料库，合成对话包括助理和客服角色。

该模型通过双流配置处理用户音频和智能体语音，两个流共享相同的模型状态。

该模型的代码采用MIT许可，权重采用NVIDIA开放模型许可。

🏷️