小红花·文摘

本文探讨了将形态学表示集成到概率语言模型中的方法，展示了模型在词相似性任务上的优越表现和困惑度降低。研究表明，模型的通用性与数据集特征相关，且大型语言模型在不同语言中的形态能力存在局限性。实验发现，位置编码的重要性随语言形态复杂性变化，不同形态结构的语言表现出聚类现象。