本文首次精确描述了多层神经网络的梯度下降迭代分布,解决了样本量与特征维度成比例增长的问题。理论揭示了权重的波动与集中特性,并提供了一致的泛化误差估计,指导早停与超参数调优。
本研究探讨了Transformer模型在学习多数布尔逻辑时的固有限制,分析显示模型的泛化误差显著,且随着输入规模增大呈指数增长,揭示了其在基本逻辑推理任务中的优化挑战和理论局限性。
本研究探讨了多轮推理在大语言模型中的应用,提出了一种通过多轮推理近似图灵可计算函数的方法。研究结果表明,即使序列长度超出模型的上下文窗口,仍能有效学习并降低泛化误差,从而推动多轮序列学习与推理的理论基础发展。
本研究提出了一种基于克拉美-罗界限的多源迁移学习理论框架,以解决数据稀缺问题。通过优化样本量和引入泛化误差度量,开发了算法OTQMS,实验结果表明其在准确性和数据效率上优于现有方法。
本研究探讨了半对偶对抗最优传输方法在统计学习方面的理论不足。通过建立泛化误差上界,发现这些界限依赖于神经网络的统计特性,为未来的最优传输研究提供了新方向。
Scaling Law由百度于2017年提出,研究了深度学习中训练集大小、计算规模与模型精度的关系。实证研究表明,泛化误差与训练集大小呈幂律关系,模型大小与数据大小存在缩放关系。这一发现对深度学习的研究和实践具有重要影响,助力模型调试和系统设计。
百度在2017年研究了Scaling Law,发现深度学习模型的泛化误差与训练集规模呈幂律关系。尽管OpenAI在2020年推广了这一概念,百度的早期研究却未得到广泛应用,成为其发展史上的遗憾。
本研究探讨了自监督学习中宽神经网络的核行为与损失函数之间的关系。通过分析Barlow Twins损失下的两层网络,证明了当网络宽度趋近无穷大时,NTK变为常数,从而为理解宽神经网络提供了理论基础,并推导了泛化误差的界限。
本文研究了高维鲁棒回归中梯度下降、随机梯度下降及其近端变体的泛化性能。通过一致估计量提供了明确的泛化误差估计,并确定了最佳停止迭代以最小化误差。
本文探讨了核方法在机器学习中的应用,重点分析了随机傅里叶特征的优势与改进。研究表明,随机傅里叶特征在处理大规模数据集时能有效降低计算成本,并提出了基于非平稳谱核的学习框架,验证了其在连续学习任务中的有效性。此外,研究解决了傅里叶嵌入在神经网络训练中的高泛化误差问题,显示出其在噪声环境下的稳健性。
本文提出了一种结合确定性方法与贝叶斯优化的概率线性搜索算法,利用高斯过程优化目标,消除随机梯度下降中的学习率定义。研究了自适应采样算法的泛化误差,并提出了多层蒙特卡罗渐进优化方法,分析了具有有界更新的迭代学习算法的泛化特性,展示了在不同设置下的改进界限。此外,介绍了一种数据驱动的方法,为经典和学习优化器提供了强泛化保证。
本文探讨了PAC-Bayesian框架在卷积神经网络中的应用,分析了深度学习的泛化误差。研究提出了基于边际似然的PAC-Bayesian界限,为优化算法提供了理论支持,并通过实证分析验证了其有效性。此外,提出了数据相关的均匀泛化界限,结合学习理论构建深度神经网络的置信集,展示了在多个模型上的应用潜力。
本文探讨了深度神经网络的泛化能力,提出了针对预训练大型语言模型的非虚空泛化界限,表明其能够发现未知数据规律。通过引入新的神经网络属性,建立了更紧的泛化误差界限,适用于多种网络架构,并提供了数值评估支持理论。
本文研究了神经缩放定律,揭示了在无限宽度的两层神经网络中,数据与模型大小之间的关系大致呈线性。探讨了参数稀疏性对Transformer模型的影响,提出了描述权重稀疏性与训练数据量关系的扩展定律,并验证了最佳稀疏度的概念。此外,分析了最近邻分类器的缩放定律,指出数据分布对泛化误差的影响。
本文探讨了单隐藏层神经网络在回归问题中的应用,分析了激活函数的性质及其对模型性能的影响。研究表明,适当初始化和正则化下的过度参数化神经网络能够有效降低泛化误差,实现稳定收敛。数值实验验证了理论结果,强调了L2正则化在提高训练鲁棒性方面的重要性。
神经网络的性能与训练时间、数据集大小和模型规模呈幂律关系。研究表明,训练早期的收敛速度与网络宽度相关,而后期则受架构和任务影响。通过分析数据集规模与网络参数的关系,提出了优化模型训练的方法,并强调数据分布对泛化误差的影响。
本文研究了随机梯度下降算法的泛化误差,提出了一种自适应采样算法,结果表明该算法在降低经验风险和提高样本外准确性方面优于均匀采样。同时,探讨了算法的稳定性、随机哈密尔顿方法及其在机器学习中的应用,并提出了新的学习界限和加速方法。
本文研究了核脊回归的泛化误差及优化方法,提出了Smoothness Adaptive Transfer Learning (SATL)算法,以解决现有算法适应性不足的问题。通过分析低秩逼近与正则化参数的关系,证明了核岭回归在特定条件下的最优性,并探讨了超参数选择对模型性能的影响。
本文探讨了深度学习中的双下降现象,指出在带噪声数据训练的不完美模型中,模型复杂性增加时,泛化误差先升后降。研究表明,合理的正则化和超参数设置可以改善模型性能,避免双下降现象。
本文探讨了二次神经元在深度学习中的应用,提出了QuadraNet模型,利用其高阶优势提升认知和计算性能。研究表明,使用一层二次神经元可在较少隐藏层下实现更高准确性。此外,提出的DIQNN模型表现优于传统神经网络,并通过低秩方法降低计算成本,提供了新的理论框架分析泛化误差。
完成下面两步后,将自动完成登录并继续当前操作。