本研究探讨大型语言模型在多语言处理中的能力,提出“潜在罗马化”概念,揭示非拉丁文字的罗马化形式在模型中的中介作用,表明模型在原文字和罗马化文本之间的语义共享,为多语言建模和模型可解释性提供了新方向。
该研究提出了一种新模型,通过重新分配单词权重来模拟相似语境中单词之间的语义共享,并将其纳入文档表示法中。该模型在无监督设置下,在难度逐渐增加的数据集上获得了最好的微观和宏观F1分数。研究主题是单词嵌入和语义含义。
完成下面两步后,将自动完成登录并继续当前操作。