为视觉而录,不为听觉而回响:上下文化的自动语音识别转录文本转写

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文介绍了一个自动语音识别后处理模型,使用元数据构建任务特定的数据集,并通过两阶段训练策略微调RoBERTa预训练模型。测试结果显示,该模型在可读性感知WER上比基线模型提高了13.26%,在BLEU度量上提高了17.53%。人类评估证明该方法生成的转录本比基线更易读。

🎯

关键要点

  • 提出了一个自动语音识别后处理模型,旨在将不正确和嘈杂的ASR输出转换为可读的文本。
  • 使用元数据提取语料库构建任务特定的数据集。
  • 采用两阶段训练策略微调RoBERTa预训练模型。
  • 模型在可读性感知WER上比基线模型提高了13.26%。
  • 在BLEU度量上提高了17.53%。
  • 人类评估证明该方法生成的转录本比基线更易读。
➡️

继续阅读