使用合成数据进行语音转文本中地址提取的命名实体识别
原文约300字/词,阅读约需1分钟。发表于: 。本文介绍了一种建立在双向编码器变换器(BERT)架构上的命名实体识别(NER)模型的方法,具体使用了 SlovakBERT 模型。该 NER 模型从语音转文本转录获取的数据中提取地址部分。由于真实数据的稀缺性,使用 GPT API 生成了一个合成数据集。强调了在这种人工数据中模仿口语变异的重要性。我们的 NER 模型仅使用合成数据进行训练,并使用小型真实测试数据集进行评估。
本文介绍了基于BERT架构的命名实体识别模型,使用SlovakBERT模型从语音转文本转录获取的数据中提取地址部分。模型使用GPT API生成合成数据集,并强调了模仿口语变异的重要性。NER模型仅使用合成数据进行训练,并使用小型真实测试数据集进行评估。