本研究提出了一种扩展可识别性理论的新方法,旨在解决自我监督学习(SSL)领域理论解释不足的问题。该理论框架有助于理解SSL中的隐含数据假设,推动更具可解释性和广泛性的学习,重点关注训练动态、有限样本和数据多样性的影响。
本研究分析深度分类器的训练动态及类别层次关系的演变,提出新框架以追踪特征流形,发现上位词类别早期学习明显,而下位词类别则在后期学习,揭示了深度学习的新见解。
本研究探讨了大型语言模型训练中超参数微调对收敛与发散的影响,提出了一种一致的收敛测量方法,揭示了训练动态的复杂性与敏感性,为理解模型训练的稳定性提供了新视角。
本研究探讨了学习率预热在大批量训练中的应用,提出了更新大小的新指标分析方法。研究表明,通过优化器显式归一化更新,可以显著减少预热需求,显示出优化策略对训练动态的影响。
该研究提出了一种使用多个合成子集来捕捉深度网络训练动态的方法,并改善了现有数据集提取方法的性能。同时,还实现了生成更大的合成数据集。
研究发现,线性化浅层 transformer 模型能够重现 transformer 训练动态的几个重要方面,对 transformer 训练的复杂性有更深入的了解。结果表明,简单的线性化 transformer 模型是理解 transformer 优化的有价值的现实抽象。
完成下面两步后,将自动完成登录并继续当前操作。