自发式非正式语音数据集用于标点恢复
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本研究解决了标点恢复模型仅在结构良好的脚本语料上评估的问题,并引入了非正式语音源的标点恢复数据集SponSpeech,提高了模型在实际应用中的有效性。
🎯
关键要点
- 本研究解决了标点恢复模型仅在结构良好的脚本语料上评估的问题。
- 引入了来自非正式语音源的标点恢复数据集SponSpeech。
- SponSpeech数据集提供了标点和大小写信息。
- 数据集包括一个过滤管道用于生成更高质量的数据。
- 该研究显著提升了模型在实际应用中的有效性。
🏷️
标签
➡️