💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

NVIDIA 发布了 PersonaPlex-7B-v1,这是一个全双工语音对话模型,采用单一 Transformer 架构,支持自然语音交互、插话和重叠对话。该模型通过双流配置处理用户音频和智能体语音,结合真实与合成对话进行训练,评估结果显示其在对话动态和任务遵守方面表现优异。

🎯

关键要点

  • NVIDIA 发布了 PersonaPlex-7B-v1,这是一个全双工语音对话模型。
  • PersonaPlex 采用单一 Transformer 架构,支持自然语音交互、插话和重叠对话。
  • 该模型通过双流配置处理用户音频和智能体语音,提升对话动态和任务遵守能力。
  • PersonaPlex 使用神经编解码器编码连续音频,自回归地预测文本和音频标记。
  • 模型拥有 70 亿个参数,基于 Moshi 网络架构,结合卷积神经网络和 Transformer 层。
  • 训练数据融合了真实对话和合成对话,确保自然对话反馈和任务执行情况分开。
  • 在 FullDuplexBench 和 ServiceDuplexBench 测试中,PersonaPlex 实现了高接管率和低延迟。
  • 该模型的代码采用 MIT 许可,权重采用 NVIDIA 开放模型许可。