启发式核心:理解预训练语言模型的子网络泛化
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
利用信息论探测套件发现,全面训练后语法知识迅速获得,持续性能改善来自开放域知识获取,语义和推理任务受益于长距离语境化和更高专业化。跨任务相似性测量揭示语言相关任务共享信息。这些发现对模型可解释性、多任务学习和有限数据学习具有重要意义。
🎯
关键要点
- 利用信息论探测套件分析了9项任务,涵盖语法、语义和推理。
- 在200万次预训练步骤和5个种子中识别了关键学习阶段。
- 语法知识在全面训练的0.5%后迅速获得。
- 持续性能改善主要来自对开放域知识的获取。
- 语义和推理任务受益于后期对长距离语境化和更高专业化的提升。
- 跨任务相似性测量揭示语言相关任务在训练期间共享信息。
- 这些发现对模型可解释性、多任务学习和有限数据学习具有重要意义。
➡️