是否对文本进行标记化:跨语言转移的文本表示的比较研究

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

该研究比较了不同文本表示模式的语言模型在跨语言转移中的表现,提出了一个建议方案,以指导根据任务和语言要求进行模型选择。

🎯

关键要点

  • 选择合适的分词方案是低资源跨语言转移的瓶颈。
  • 研究比较了不同文本表示模式的语言模型,包括基于分词的模型(BERT,mBERT)、基于图像的模型(PIXEL)和基于字符级别的模型(CANINE)。
  • 提出了评分语言系数(LQ)来评估模型表现。
  • 在19种源语言和133种目标语言上进行了实验,涵盖了POS标记、依赖解析和NER任务。
  • 基于图像的模型在语言密切相关且具有相似视觉脚本的情况下表现出色。
  • 基于分词的模型在偏向于词义的任务中表现优越。
  • 在依赖解析任务中,具有字符级别关注的模型胜过其他模型。
  • 根据研究结果提出了一个建议方案,以指导模型选择。
➡️

继续阅读