💡 原文中文,约4100字,阅读约需10分钟。
📝

内容提要

上海交通大学推出全球首个支持多人实时口语对话的语音情感大模型“交交”。该模型具备多人对话、身份识别、多语言支持和情感理解等功能,能够与多位用户自然互动,精准识别身份并提供个性化回应,同时支持多种语言和方言,满足知识问答需求,展现出强大的语音理解与交互能力。

🎯

关键要点

  • 上海交通大学推出全球首个支持多人实时口语对话的语音情感大模型“交交”。
  • 该模型具备多人对话、身份识别、多语言支持和情感理解等功能。
  • “交交”能够与多位用户自然互动,精准识别身份并提供个性化回应。
  • 支持汉语、英语、日语和法语四大主流语言,具备跨语言回复能力。
  • 对中文进行了特殊优化,具备强大的方言识别与理解能力。
  • 能够根据对话内容理解用户情绪,生成富有情感的回应。
  • “交交”是一个知识宝库,能够进行古诗词背诵、科学原理讲解等。
  • 采用鲁棒的音频编码器,具备良好的抗噪能力和多人理解能力。
  • 基于创新的跨模态对齐机制,实现多语言语音信号与文本的精准映射。
  • 通过构造多人对话数据,增强模型的对话处理能力。
  • 在语音对话大模型的测试中,“交交”展现出卓越的表现。
  • 在多语言测试中,模型在中文、日文、法文上的表现显著优于其他模型。
  • 研发团队来自上海交通大学,专注于听觉人工智能与计算声学领域的研究。
  • “交交”重新定义了人机交互的方式,让对话更加自然、智能、有趣。
➡️

继续阅读