本研究探讨了预训练语言模型中的子网络及其对多任务学习的影响,提出了一种权重掩蔽方案以删除特定知识,同时保留语言建模能力。研究发现语言模块化自然形成,稀疏微调可能减少子网络的语言专门化。实证研究表明,结构化记忆的网络在推广任务时表现更佳,且模型大小与性能之间存在关联。这些发现对模型可解释性和多任务学习具有重要意义。
完成下面两步后,将自动完成登录并继续当前操作。