本文探讨大型语言模型(LLMs)如何在符号与连续语言认知方法之间架起桥梁,认为深度学习架构能够灵活处理连续和离散表示,从而促进形态句法知识的编码。这种灵活性可能是LLMs成功的关键因素。
本研究分析语言模型中语言知识的编码,特别是形态句法现象。通过Shapley头部值方法,发现BERT和RoBERTa模型的注意力头在处理语言现象时有聚类特征。这揭示了模型处理信息的独特方式,对跨语言分析和自然语言处理的可解释性有影响。
该研究使用诱导句子扰动的检测方法,分析了四个多语言transformers的形态句法内容,并研究了精调POS标记对模型知识的影响。研究结果表明,精调可以改善和降低探测性能,并改变形态句法知识在模型中的分布。
完成下面两步后,将自动完成登录并继续当前操作。