抱歉,提供的文本内容不足以进行总结。请提供更详细的文章内容。
本文探讨了恒等式 $x = elu(x) - elu(-x)$,并指出类似的恒等式适用于GeLU和Swish等激活函数。通过定义任意奇函数$ heta(x)$,得出更一般的结论,表明这些激活函数使两层神经网络可以简化为一层,从而提升模型灵活性。
机器之心数据服务现已上线,提供高效稳定的数据获取服务,简化数据爬取流程。
本研究提出了一种混合量子-经典分层方法HiQ-Lip,用于估计神经网络的全局Lipschitz常数。该方法结合二次无约束优化和图粗化策略,显著提高了计算速度和准确性,效率是现有最佳方法的两倍,展示了小型量子设备的应用潜力。
该研究提出了一种新方法,结合模型压缩技术与抑制注意机制,以解决变换器语言模型的计算和能效问题。调整后的模型在自然语言处理基准测试中表现出竞争力,显示出提升效率的潜力。
本研究提出了一种新的ReLU-based Preference Optimization (RePO)算法,旨在解决大型语言模型与人类偏好对齐中的计算和稳定性问题。RePO简化了调参过程,提升了模型性能,实验证明其在多个基础模型上优于现有方法DPO和SimPO。
本研究解决了Kolmogorov-Arnold网络与ReLU网络之间的关系问题,探索了如何将分段线性Kolmogorov-Arnold网络转换为ReLU网络及其逆过程。该论文提供了明确的构造方法,展示了两者之间的互通性,具有重要的理论意义和实际应用潜力。
本文研究了经过梯度流训练的单隐藏层ReLU网络在$n$个数据点上的收敛性,发现宽度为$ ext{log}(n)$的网络能够高概率实现全局收敛,并揭示了收敛速度的渐近特征。
本研究解决了在非可实现设置中,学习任意偏向的ReLU激活的基本算法问题。目前已有的多项式时间算法仅能为更理想的无偏和有限偏向设置提供近似保证。我们的主要结果是一个多项式时间统计查询(SQ)算法,首次为任意偏向提供常数因子近似,展示了梯度下降算法的内在局限性。
文章讨论了深度学习中的过拟合与欠拟合问题,以及在PyTorch中使用的激活函数、损失函数和优化器。重点分析了消失梯度和爆炸梯度的成因、检测方法及缓解措施,特别是Batch Normalization和Gradient Clipping的应用,同时提到Dying ReLU问题及其解决方案。
本研究聚焦于利用ReLU激活函数的完全连接深度神经网络进行非参数估计,解决了测量数据中时空依赖的问题。通过在流形上建模以应对维度诅咒,我们的模型更好地反映了现实数据的复杂性,并在预测性能和理论稳健性上取得了显著提升。实证模拟显示,所提方法在多种合成响应函数下优于现有文献中的方法,展现了稠密神经网络在时空建模中的强大能力。
本文探讨了修正线性单元(ReLU)网络的表现力及其决策边界,证明了两层ReLU网络的决策边界可被阈值网络捕捉,并提出了减少隐藏单元数量的系数条件。实验验证了ReLU网络的学习能力,并提出了一种新的随机梯度下降算法,证明其在单隐藏层ReLU网络中能达到全局最优性。
本文研究了ReLU网络层的可注入性,提出了一种新方法并进行了数值评估,结果显示收敛速度快,关键参数之间存在明显关系,为后续研究提供了参考。
本文介绍了多种针对ReLU神经网络鲁棒性验证的算法,如Fast-Lin和Fast-Lip,强调其计算速度快和下界质量高。同时,研究探讨了凸松弛方法的有效性及其在优化中的应用,揭示了训练复杂性与Max-Cut问题的关系,并改进了局部梯度方法的收敛性。
本文研究了ReLU神经网络的逼近能力,发现深层网络在逼近光滑函数方面优于浅层网络。通过分析超参数和随机初始化,证明了深层网络在优化中具有更强的全局收敛性。此外,过度参数化对优化景观有重要影响,浅层ReLU网络在高维空间中也能有效逼近Hölder函数。
本文探讨了过参数化神经网络的泛化问题,传统方法通常基于插值观点,未能与更复杂的任务相适应。研究表明,在训练样本数超过某一优化阈值后,模型更倾向于向简单解收敛,而非简单插值,这一现象有助于改善模型的泛化能力,并显著降低测试损失。
本研究探讨Kolmogorov-Arnold网络中的不确定性量化,特别是高阶ReLU KAN,以提升贝叶斯方法的计算效率。该方法普适,能同时获取认识性和随机性不确定性,适用于其他基函数,并通过测试验证了其识别功能依赖关系的能力。
本文探讨了人工神经网络在高维偏微分方程(PDE)数值逼近中的应用,特别是如何克服维度灾难。研究表明,深度神经网络(DNN)能够有效逼近Kolmogorov PDE及其他高维PDE,并在精度与计算效率之间取得良好平衡。通过结合模型缩减与深度学习,提出了新的近似方法,并验证了其在实际应用中的有效性。
本文研究了随机梯度HMC及其变体,提出了带摩擦项的二阶Langevin动力学,以提高神经网络和贝叶斯矩阵分解的效率。实验结果表明,低精度SGHMC在采样中具有优势,展示了其在资源有限的机器学习中的潜力。
本文研究了ReLU神经网络在Sobolev空间中对正则函数的逼近能力,分析了逼近速率及误差界限。通过深度ReLU网络,证明其能够有效逼近多项式和高维函数,克服维度灾难,并展示超收敛速率。研究探讨了网络宽度和深度对逼近性能的影响,提出了新模型类的定义,强调深度网络在函数逼近中的适应性。
完成下面两步后,将自动完成登录并继续当前操作。