本文首次精确描述了多层神经网络的梯度下降迭代分布,解决了样本量与特征维度成比例增长的问题。理论揭示了权重的波动与集中特性,并提供了一致的泛化误差估计,指导早停与超参数调优。
本研究探讨了Transformer模型在学习多数布尔逻辑时的固有限制,分析显示模型的泛化误差显著,且随着输入规模增大呈指数增长,揭示了其在基本逻辑推理任务中的优化挑战和理论局限性。
本研究探讨了多轮推理在大语言模型中的应用,提出了一种通过多轮推理近似图灵可计算函数的方法。研究结果表明,即使序列长度超出模型的上下文窗口,仍能有效学习并降低泛化误差,从而推动多轮序列学习与推理的理论基础发展。
本研究提出了一种基于克拉美-罗界限的多源迁移学习理论框架,以解决数据稀缺问题。通过优化样本量和引入泛化误差度量,开发了算法OTQMS,实验结果表明其在准确性和数据效率上优于现有方法。
本研究探讨了半对偶对抗最优传输方法在统计学习方面的理论不足。通过建立泛化误差上界,发现这些界限依赖于神经网络的统计特性,为未来的最优传输研究提供了新方向。
Scaling Law由百度于2017年提出,研究了深度学习中训练集大小、计算规模与模型精度的关系。实证研究表明,泛化误差与训练集大小呈幂律关系,模型大小与数据大小存在缩放关系。这一发现对深度学习的研究和实践具有重要影响,助力模型调试和系统设计。
百度在2017年研究了Scaling Law,发现深度学习模型的泛化误差与训练集规模呈幂律关系。尽管OpenAI在2020年推广了这一概念,百度的早期研究却未得到广泛应用,成为其发展史上的遗憾。
本研究探讨了自监督学习中宽神经网络的核行为与损失函数之间的关系。通过分析Barlow Twins损失下的两层网络,证明了当网络宽度趋近无穷大时,NTK变为常数,从而为理解宽神经网络提供了理论基础,并推导了泛化误差的界限。
本文研究了高维鲁棒回归中梯度下降、随机梯度下降及其近端变体的泛化性能。通过一致估计量提供了明确的泛化误差估计,并确定了最佳停止迭代以最小化误差。
本文提出了一种基于压缩性的框架,通过最小描述长度(MDL)推导统计监督学习算法的泛化误差上界。不同于传统方法,该方法利用训练集和测试集之间的多字母相对熵。基于Blum-Langford的PAC-MDL界限,引入块编码和有损压缩。数值模拟显示,选择合适的先验优于经典先验。
科学机器学习是一种通过深度学习技术分析数据的工具。研究者介绍了一个软件框架,用于解决科学机器学习训练问题,提高回归任务中的泛化误差。他们发现信任域方法可以显著提高回归任务中的泛化误差。
本文阐述了深度神经网络在某些情况下为何表现更好,推导了使用ReLU激活的DNN估计器的泛化误差,说明了DNN的收敛速率几乎是最优的,为选择合适的DNN层数和边提供了指导。
研究发现,少量来自未知分布的样本可以提高任务的泛化性能,但随着样本数量的增加,泛化误差会下降。实验证明了这一现象。当知道哪些样本是未知分布时,可以利用适当加权的目标函数来利用这些非单调趋势,但其实际效用有限。当不知道哪些样本是未知分布时,常用策略无法保证目标泛化误差不会下降。
本文阐述了深度神经网络在某些情况下表现更好的原因,并推导了使用ReLU激活函数的DNN估计器的泛化误差。同时指出DNN的收敛速率几乎是最优的,为选择合适的DNN层数和边提供了指导。
本文提出了一种新的剪枝再蒸馏框架,通过剪枝教师模型减少泛化误差,并构建基于剪枝教师网络的学生网络进行蒸馏。
本文介绍了一种新的分析框架,用于分析基于一阶优化算法的统计学习中的泛化误差。该分析适用于多个学习问题,并提供了接近配对的上下界的泛化误差。结果适用于平滑和强凸优化问题,以及满足Polyak-Lojasiewicz假设的平滑非凸优化问题。最后,研究证明,在标准监督学习的情况下,批梯度下降法可以通过增加批次大小和热启动来达到近似最优的泛化误差。
本文使用随机矩阵理论和自由概率的工具推导了高维岭回归模型的训练和泛化性能,通过S变换特性得到了训练和泛化误差的解析公式,研究了广义类随机特征模型的泛化误差,讨论了偏差-方差分解和异向权重结构对性能的限制。这些结果扩展了对神经缩放定律模型的理解。
本文研究了基于梯度的算法在非凸损失景观中的应用,以及其在有限样本复杂度下的最佳泛化误差问题。以高维相位恢复问题为例,证明了随机梯度下降算法可以达到完美的泛化性能,而梯度下降算法则不能。同时,从统计物理学的角度分析了这些算法在连续时间、以热启动方式和大系统规模下的全部轨迹,并揭示了一些有趣特性。
该研究提供了一个评估图神经网络泛化误差的理论框架,探索了图卷积神经网络和消息传递图神经网络两种类型。通过新方法导出上界,为网络在未知数据上的性能提供理论保证。
研究人员探索了稀疏专家混合模型在不同关键因素下的泛化误差,并提供了使用稀疏性来提高混合模型泛化性能的见解。
完成下面两步后,将自动完成登录并继续当前操作。