本研究提出了一种扩展可识别性理论的新方法,旨在解决自我监督学习(SSL)领域理论解释不足的问题。该理论框架有助于理解SSL中的隐含数据假设,推动更具可解释性和广泛性的学习,重点关注训练动态、有限样本和数据多样性的影响。
本研究探讨深度分类器的训练动态,分析类别层次关系在训练中的演变。提出新框架以追踪特征流形变化,发现上位词学习在早期明显,下位词学习在后期进行,揭示深度学习的新见解。
本文探讨了神经网络损失函数的结构及其对泛化的影响,提出了“滤波器归一化”方法以可视化损失函数的曲率。研究了网络结构和训练参数对损失景观的影响,并分析了训练动态与损失面的几何形态之间的关系,揭示了深度学习中的不稳定性来源及其对最终损失的敏感性。
深度神经网络模型的优化过程展现出良好的泛化能力。研究揭示了损失函数的高维特性及其对训练动态的影响。通过实验和理论分析,探讨了损失景观的变化、模型解释性技术及其在实际应用中的重要性,并提出了多种算法以提高模型的有效性和稳定性。
本文研究了神经网络训练动态,特别是初始化规模对多层模型中“惰性”与“丰富”区域转换的影响。结果表明,初始尺度在训练中起主导作用,影响泛化能力。稀疏初始化和网络宽度的增加显著提高样本效率,惰性训练现象不仅限于过度参数化网络。
本文探讨了一种新的数据集蒸馏方法,通过固定模型和少量数据点来近似原始数据,从而提升了在ImageNet数据集上的准确度。此外,研究提出了使用扩散模型进行数据集精炼的新范式,显著改善了训练动态和性能,减少了数据集大小,提高了分类任务的准确率。
该研究提出了一种使用多个合成子集来捕捉深度网络训练动态的方法,并改善了现有数据集提取方法的性能。同时,还实现了生成更大的合成数据集。
研究发现,线性化浅层 transformer 模型能够重现 transformer 训练动态的几个重要方面,对 transformer 训练的复杂性有更深入的了解。结果表明,简单的线性化 transformer 模型是理解 transformer 优化的有价值的现实抽象。
完成下面两步后,将自动完成登录并继续当前操作。