小红花·文摘

本文首次精确描述了多层神经网络的梯度下降迭代分布，解决了样本量与特征维度成比例增长的问题。理论揭示了权重的波动与集中特性，并提供了一致的泛化误差估计，指导早停与超参数调优。

Precise Gradient Descent Training Dynamics of Finite Width Multilayer Neural Networks

BriefGPT - AI 论文速递 ·

本研究探讨了Transformer模型在学习多数布尔逻辑时的固有限制，分析显示模型的泛化误差显著，且随着输入规模增大呈指数增长，揭示了其在基本逻辑推理任务中的优化挑战和理论局限性。

Provable Failure of Language Models in Learning Majority Boolean Logic via Gradient Descent

BriefGPT - AI 论文速递 ·

本研究探讨了多轮推理在大语言模型中的应用，提出了一种通过多轮推理近似图灵可计算函数的方法。研究结果表明，即使序列长度超出模型的上下文窗口，仍能有效学习并降低泛化误差，从而推动多轮序列学习与推理的理论基础发展。

Exploring the Understanding of Multi-Round Large Language Model Reasoning: Approximability, Learnability, and Generalizability

BriefGPT - AI 论文速递 ·

本研究提出了一种基于克拉美-罗界限的多源迁移学习理论框架，以解决数据稀缺问题。通过优化样本量和引入泛化误差度量，开发了算法OTQMS，实验结果表明其在准确性和数据效率上优于现有方法。

A Data-Efficient Multi-Source Transfer Learning Theoretical Framework Based on the Cramér-Rao Bound

BriefGPT - AI 论文速递 ·

本研究探讨了半对偶对抗最优传输方法在统计学习方面的理论不足。通过建立泛化误差上界，发现这些界限依赖于神经网络的统计特性，为未来的最优传输研究提供了新方向。

A Statistical Learning Perspective on Semi-dual Adversarial Neural Optimal Transport Solvers

BriefGPT - AI 论文速递 ·

Scaling Law由百度于2017年提出，研究了深度学习中训练集大小、计算规模与模型精度的关系。实证研究表明，泛化误差与训练集大小呈幂律关系，模型大小与数据大小存在缩放关系。这一发现对深度学习的研究和实践具有重要影响，助力模型调试和系统设计。

Scaling Law百度最早提出！OpenAI/Claude受它启发，致谢中有Ilya

量子位 ·

遗憾不？原来百度2017年就研究过Scaling Law，连Anthropic CEO灵感都来自百度

机器之心 ·

本研究探讨了自监督学习中宽神经网络的核行为与损失函数之间的关系。通过分析Barlow Twins损失下的两层网络，证明了当网络宽度趋近无穷大时，NTK变为常数，从而为理解宽神经网络提供了理论基础，并推导了泛化误差的界限。

Infinite Width Limit of Self-Supervised Neural Networks

BriefGPT - AI 论文速递 ·

本文研究了高维鲁棒回归中梯度下降、随机梯度下降及其近端变体的泛化性能。通过一致估计量提供了明确的泛化误差估计，并确定了最佳停止迭代以最小化误差。

Estimating the Generalization Performance of Robust Regression along the Proximal Stochastic Gradient Descent Path

BriefGPT - AI 论文速递 ·

本文提出了一种基于压缩性的框架，通过最小描述长度（MDL）推导统计监督学习算法的泛化误差上界。不同于传统方法，该方法利用训练集和测试集之间的多字母相对熵。基于Blum-Langford的PAC-MDL界限，引入块编码和有损压缩。数值模拟显示，选择合适的先验优于经典先验。

样本压缩释放：针对实值损失的新泛化界限

BriefGPT - AI 论文速递 ·

科学机器学习是一种通过深度学习技术分析数据的工具。研究者介绍了一个软件框架，用于解决科学机器学习训练问题，提高回归任务中的泛化误差。他们发现信任域方法可以显著提高回归任务中的泛化误差。

基于机器学习的cvc5中量词选择

BriefGPT - AI 论文速递 ·

本文阐述了深度神经网络在某些情况下为何表现更好，推导了使用ReLU激活的DNN估计器的泛化误差，说明了DNN的收敛速率几乎是最优的，为选择合适的DNN层数和边提供了指导。

基于多阶段学习和双重稳健深度神经网络的因果推断

BriefGPT - AI 论文速递 ·

研究发现，少量来自未知分布的样本可以提高任务的泛化性能，但随着样本数量的增加，泛化误差会下降。实验证明了这一现象。当知道哪些样本是未知分布时，可以利用适当加权的目标函数来利用这些非单调趋势，但其实际效用有限。当不知道哪些样本是未知分布时，常用策略无法保证目标泛化误差不会下降。

错误数据上的准确度：关于嘈杂数据对于超出分布泛化的陷阱

BriefGPT - AI 论文速递 ·

本文阐述了深度神经网络在某些情况下表现更好的原因，并推导了使用ReLU激活函数的DNN估计器的泛化误差。同时指出DNN的收敛速率几乎是最优的，为选择合适的DNN层数和边提供了指导。

用平滑 l0 正则化的熵误差函数的 SGD 方法用于神经网络

BriefGPT - AI 论文速递 ·

本文提出了一种新的剪枝再蒸馏框架，通过剪枝教师模型减少泛化误差，并构建基于剪枝教师网络的学生网络进行蒸馏。

蒸馏剪枝：一种用于边缘设备上实时立体匹配网络的高效压缩框架

BriefGPT - AI 论文速递 ·

本文介绍了一种新的分析框架，用于分析基于一阶优化算法的统计学习中的泛化误差。该分析适用于多个学习问题，并提供了接近配对的上下界的泛化误差。结果适用于平滑和强凸优化问题，以及满足Polyak-Lojasiewicz假设的平滑非凸优化问题。最后，研究证明，在标准监督学习的情况下，批梯度下降法可以通过增加批次大小和热启动来达到近似最优的泛化误差。

使用随机零阶预言机最小化 Polyak-Łojasewicz 函数

BriefGPT - AI 论文速递 ·

本文使用随机矩阵理论和自由概率的工具推导了高维岭回归模型的训练和泛化性能，通过S变换特性得到了训练和泛化误差的解析公式，研究了广义类随机特征模型的泛化误差，讨论了偏差-方差分解和异向权重结构对性能的限制。这些结果扩展了对神经缩放定律模型的理解。

高维回归中的缩放和重标定

BriefGPT - AI 论文速递 ·

本文研究了基于梯度的算法在非凸损失景观中的应用，以及其在有限样本复杂度下的最佳泛化误差问题。以高维相位恢复问题为例，证明了随机梯度下降算法可以达到完美的泛化性能，而梯度下降算法则不能。同时，从统计物理学的角度分析了这些算法在连续时间、以热启动方式和大系统规模下的全部轨迹，并揭示了一些有趣特性。

通过梯度下降学习随机人口模型

BriefGPT - AI 论文速递 ·

该研究提供了一个评估图神经网络泛化误差的理论框架，探索了图卷积神经网络和消息传递图神经网络两种类型。通过新方法导出上界，为网络在未知数据上的性能提供理论保证。

混合图上的消息传递网络的泛化界限

BriefGPT - AI 论文速递 ·

研究人员探索了稀疏专家混合模型在不同关键因素下的泛化误差，并提供了使用稀疏性来提高混合模型泛化性能的见解。

稠密专家混合模型的泛化误差分析：初步研究

BriefGPT - AI 论文速递 ·