优化多重口吃语音分类:利用 Whisper 的编码器实现自动评估中高效参数减少

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种基于LSTM的多任务模型,用于增量检测口吃结构。该模型在Switchboard对话行为语料库上训练,并在SWDA上表现优异。同时,在bAbI+数据集上评估结果显示该模型具有很好的泛化潜力。

🎯

关键要点

  • 提出了一种基于LSTM的多任务模型,用于增量检测口吃结构。
  • 该模型可以连接到任何组件以进行增量解释,或用于“清理”当前话语。
  • 在Switchboard对话行为语料库上训练,展示了在该数据集上的准确性。
  • 模型在SWDA上表现优异,优于以前的神经网络基于增量的方法。
  • 采用较简单的架构,测试模型的泛化潜力。
  • 在bAbI+数据集上评估模型,显示出良好的泛化潜力。
  • 阐明了适合于领域通用处理的口吃类型。
➡️

继续阅读