分词的重要性:提升印度语言的零样本命名实体识别
📝
内容提要
本研究解决了印度低资源语言命名实体识别(NER)中的分词策略不适用的问题,提出了比较BPE、SentencePiece和字符级分词的系统方法。研究发现,SentencePiece在零样本跨语言设置中表现优于BPE,特别是在处理形态复杂的极低资源语言时,可以更好地保持实体一致性,从而提高实体识别的准确性和泛化能力。
🏷️
标签
➡️