一种适用于中文医学标点恢复的小型且快速的 BERT 模型
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本论文介绍了一种基于预训练掩码语言模型的条件联合建模框架,用于提高医学领域ASR系统的识别准确率。通过自适应技术和数据增强方法,该模型在字典和会话样式语料库上相对于基线模型实现了约5%的绝对改进和约10%的ASR输出优化。
🎯
关键要点
- 提出了一种基于预训练掩码语言模型的条件联合建模框架。
- 该框架用于预测标点符号和大小写。
- 引入了域和任务特定的自适应技术和数据增强方法。
- 旨在提高医学领域ASR系统的识别准确率。
- 实验结果显示,相对于基线模型,F1度量下实现了约5%的绝对改进。
- ASR输出优化约为10%。
➡️