大模型时代的ASR就是不一样!豆包“听力”水平现场评测,方言&小朋友口音直接拿捏!

大模型时代的ASR就是不一样!豆包“听力”水平现场评测,方言&小朋友口音直接拿捏!

💡 原文中文,约6400字,阅读约需16分钟。
📝

内容提要

2024 火山引擎 AI 创新巡展上海站展示了豆包大模型在综合评分、语音识别等方面的效果提升,并发布了对话式 AI 实时交互解决方案。豆包大模型团队成果 Seed-ASR 提供了语音识别能力支持,能准确转录各种语音信号,识别不同语言、方言、口音。豆包 APP 月活用户数已达 2752 万。火山引擎整合了云服务的实时音视频技术,使 AI 语音交互能像人类说话一样打断和插话。Seed-ASR 已在豆包 APP 中应用,并在语音交互、内容审核、会议访谈转写、音视频字幕等场景有落地。

🎯

关键要点

  • 2024火山引擎AI创新巡展上海站展示了豆包大模型在综合评分和语音识别方面的提升。

  • 发布了对话式AI实时交互解决方案,Seed-ASR提供了语音识别能力支持。

  • Seed-ASR能够准确转录各种语音信号,识别不同语言、方言和口音。

  • 豆包APP月活用户数已达2752万,是同类APP的第一名。

  • 火山引擎整合了云服务的实时音视频技术,使AI语音交互更自然。

  • Seed-ASR已在豆包APP中应用,支持语音交互、内容审核等场景。

  • 豆包大模型最新版本综合能力提升20.3%,角色扮演能力提升38.3%。

  • 语音合成模型升级了流式语音合成能力,支持实时响应和精准断句。

  • Seed-ASR基于大语言模型,具备上下文理解能力,提升语音识别准确性。

  • Seed-ASR的训练过程包括自监督学习、监督微调和强化学习等阶段。

  • Seed-ASR在中英文测试集上展现出显著的单词错误率降低。

  • 团队强调务实和重视技术的氛围,促进了项目的高效推进。

  • 希望吸引更多有志于科技创新的人才加入团队。

➡️

继续阅读