本研究探讨了语言模型在处理动态时间事实时的不足,发现“时态头”在时间知识处理中的重要性。禁用时态头会降低模型对时间特定知识的回忆能力,但不影响其一般功能。
研究发现,对大型语言模型进行参数扩展会影响其回忆能力和处理上下文信息的能力。减少模型大小30%以上会降低回忆预训练中的事实能力,但减少60-70%则保留了处理上下文信息的能力。密集扩展和权重剪枝都表现出这种行为。
完成下面两步后,将自动完成登录并继续当前操作。