PhayaThaiBERT:用未吸收外借词增强预训练泰语语言模型
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了从维基百科数据中创建特定语言BERT模型的自动化流程,并引入了42个新的模型。评估结果显示,这些特定语言模型在某些语言方面有显著改进。初步结果为了解特定语言模型的最佳条件提供了第一步。
🎯
关键要点
- 介绍了一种从维基百科数据中创建特定语言BERT模型的自动化流程。
- 引入了42个新的特定语言BERT模型。
- 以往缺乏专门深度神经语言模型的语言得到了改善。
- 使用UDify解析器评估模型的优点。
- WikiBERT模型在平均性能方面优于mBERT解析器。
- 某些语言的特定语言模型表现出显著改进,其他语言改进有限或性能下降。
- 提供了初步结果,帮助了解特定语言模型的最佳条件。
➡️