为视觉而录,不为听觉而回响:上下文化的自动语音识别转录文本转写
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文介绍了一个自动语音识别后处理模型,使用元数据构建任务特定的数据集,并通过两阶段训练策略微调RoBERTa预训练模型。测试结果显示,该模型在可读性感知WER上比基线模型提高了13.26%,在BLEU度量上提高了17.53%。人类评估证明该方法生成的转录本比基线更易读。
🎯
关键要点
- 提出了一个自动语音识别后处理模型,旨在将不正确和嘈杂的ASR输出转换为可读的文本。
- 使用元数据提取语料库构建任务特定的数据集。
- 采用两阶段训练策略微调RoBERTa预训练模型。
- 模型在可读性感知WER上比基线模型提高了13.26%。
- 在BLEU度量上提高了17.53%。
- 人类评估证明该方法生成的转录本比基线更易读。
🏷️
标签
➡️