多个来源胜过一个:在低资源词汇标注中整合外部知识
原文中文,约400字,阅读约需1分钟。发表于: 。通过协调多个语言专业知识源,我们解决了低资源语言自动数据驱动预览中的数据稀缺问题,并在词级准确性方面获得了 5 个百分点的平均绝对改进,对横跨六种低资源语言的多样化数据集而言,这些增强在最低资源的 Gitksan 语言中表现尤为明显,我们实现了 10 个百分点的改进。此外,在相同六种语言的模拟超低资源环境中,仅在少于 100 个含义标注句子上训练下,我们在词级准确性方面获得了 10...
本研究通过在资源稀缺环境中使用插入式脚注和嵌入式翻译信息来增强神经模型,模型在 SIGMORPHON 2023 共享任务数据集上表现优于现有技术水平。仅使用 100 个句子进行训练时,模型在极度资源稀缺环境中平均改善了 9.78 个百分点。研究结果突显了翻译信息在提升系统性能方面的关键作用,为语言的记载和保护提供了有希望的途径。