本研究探讨了自监督学习中宽神经网络的核行为与损失函数之间的关系。通过分析Barlow Twins损失下的两层网络,证明了当网络宽度趋近无穷大时,NTK变为常数,从而为理解宽神经网络提供了理论基础,并推导了泛化误差的界限。
本文研究了深度ReLU网络中神经切向核(NTK)的特征值分布及其对网络训练的影响,提出了误差上限和优化算法,探讨了不同宽度下的学习动态及鲁棒性,强调了NTK在实际应用中的重要变化。
本文研究了神经网络训练动态,特别是初始化规模对多层模型中“惰性”与“丰富”区域转换的影响。结果表明,初始尺度在训练中起主导作用,影响泛化能力。稀疏初始化和网络宽度的增加显著提高样本效率,惰性训练现象不仅限于过度参数化网络。
Meta发布了Llama 3系列的大型语言模型,包括8B和70B两个版本。Llama 3在推理、代码生成和指令跟踪方面具有改进的能力。Llama 3使用超过15T个预训练数据进行训练,比Llama 2大七倍。训练数据包括来自30多种语言的高质量非英语数据。Llama 3还引入了新的数据过滤流程以确保高质量的训练。模型使用并行化技术和先进的训练堆栈进行训练以提高效率。Llama 3还包括创新的指令微调方法。发布还附带了新的信任和安全工具,包括Llama Guard 2和Cybersec Eval 2。Llama 3将在主要平台上提供,以进行大规模部署。未来版本的Llama 3将包括多模态能力、多语言对话能力、更长的上下文窗口和更强大的整体性能。
本文提出了一种基于知识传递的关系补充网络(KT-RCNet)方法,旨在解决少样本增量学习中的挑战。该方法通过优化模型的塑性和使用伪增量任务,在多个数据集上取得了优异的实验效果,超越了现有的类增量学习技术。同时,研究分析了FSCIL的进展及其在计算机视觉等领域的应用。
适配器和低秩适应(LoRA)是参数节约微调技术,研究发现它们在多语言文本分类任务中对分类性能和计算成本有影响。研究还分析了不同训练场景和语言,为参数节约微调技术在复杂的多语言和多标签分类任务中的适用性提供了见解。
该研究通过限制参数保持接近初始值,建立了神经网络的显式动力学,使网络保持在惰性训练状态。研究发现,标准的神经切线核(NTK)可以控制训练期间的演变。这一研究为研究网络优化泛化目标提供了一个适当的框架,有助于对这类网络的理论理解做出更深入的贡献。
本文介绍了一种新的RoPE扩展方法YaRN,可以高效扩展大型语言模型的上下文窗口。YaRN通过旋转位置嵌入实现,经过微调后可以达到最先进的性能。文章还介绍了YaRN的基本原理和位置插值的方法。
本研究提出了同伦松弛训练算法(HRTA),结合同伦激活函数和松弛同伦参数,加速神经网络的训练过程。在NTK背景下,该方法显著改善了收敛速率,尤其在较大宽度的网络中表现出潜力。
该研究发现神经网络的演化可以用神经切向核表示,网络函数在训练期间遵循线性微分方程。研究还对神经切向核进行了数值研究,并将其与无限宽度的极限进行了比较。
完成下面两步后,将自动完成登录并继续当前操作。