文本规范化对中世纪文书分类的相关性研究

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

该论文比较了基于手工模式和基于文本转换转换器架构的神经归一化模型在波兰文本的历时归一化方法。结果显示,基于规则的解决方案在准备的数据集中表现更好。

🎯

关键要点

  • 该论文比较了两种波兰文本的历时归一化方法。
  • 方法包括基于手工模式和基于文本到文本转换器架构的神经归一化模型。
  • 详细讨论了为任务准备的训练和评估数据。
  • 进行了定量和定性分析以比较归一化解决方案。
  • 结果显示,基于规则的解决方案在4个变体中有3个表现更好。
  • 尽管如此,这两种方法在实践中各有优势和劣势。
➡️

继续阅读