小红花·文摘

本研究探讨了预训练语言模型中的子网络及其对多任务学习的影响，提出了一种权重掩蔽方案以删除特定知识，同时保留语言建模能力。研究发现语言模块化自然形成，稀疏微调可能减少子网络的语言专门化。实证研究表明，结构化记忆的网络在推广任务时表现更佳，且模型大小与性能之间存在关联。这些发现对模型可解释性和多任务学习具有重要意义。