BriefGPT - AI 论文速递 ·

拉丁树库评审：跨时间的形态标记评估

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文介绍了IMPACT-es西班牙语语料库及其词汇表，包含800万个单词和多种变体。研究探讨了低资源语言的形态标记器模型、神经网络在标注中的应用，以及Latin BERT模型在拉丁语言处理中的表现。此外，提出了动态嵌入式主题模型和LEMMING模块化模型，展示了在多种语言中的标注准确性和性能改进。

🎯

❓

IMPACT-es西班牙语语料库包含800万个单词和多种变体，基于文本编码倡议的标准和标注标准。

通过跨语言知识迁移，将标记信息从富资源语言映射到贫资源语言，可以提高低资源语言的句法分析效果。

Latin BERT模型在多个案例研究中取得了最佳词性标注成果，展示了其在自然语言处理中的多种应用。

LEMMING模块化模型同时建模词形还原和标注，支持任意全局特征的整合，并在六种语言的词形还原中创造了新的最先进表现。

eFontes模型在中世纪拉丁语文本的词形还原、词性标注和形态特征确定中，准确率分别为92.60%、83.29%和88.57%。

动态嵌入式主题模型用于探索古典与早期基督教拉丁语中的词汇语义变化，帮助描述和寻找产出中的模式。

🏷️