本研究解决语音识别文本缺乏标点的问题,影响理解。通过开发标点预测模型,使用HerBERT模型微调,在Poleval 2022任务中取得71.44的加权F1分数,提高文本理解准确性。
本研究提出了多种改进自动语音识别(ASR)系统标点预测的方法,包括使用领域特定数据的词嵌入、n-gram语言模型的数据采样和UniPunc多模态框架,显著提高了标点预测的准确率。同时,引入了新的评估指标和数据集,展示了在不同语言和场景下的有效性。
完成下面两步后,将自动完成登录并继续当前操作。