小红花·文摘 - 小红花技术领袖俱乐部

良好的权重初始化可以降低深度神经网络的训练成本。论文提出了一种权重生成器，结合生成对抗网络（GAN）和扩散模型，快速生成初始化权重，训练时间减少15倍，同时提高图像生成质量。该方法通过分块和条件机制优化权重生成，适用于多种任务，显著提升训练效率。

新思路，基于Diffusion的初始化权重生成策略 | ECCV'24 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

本文研究了深度神经网络输入输出雅可比矩阵的奇异值分布，分析了深度、权重初始化与非线性性之间的关系。结果表明，ReLU网络无法实现动态等距，而Sigmoid网络需要正交权重初始化才能实现等距，且学习效率更高。此外，提出了一种新的初始化方案以解决LSTMs和GRUs的训练不稳定性，并探讨了神经网络初始化的尺度问题及其对模型构建的重要性。

通过缩放初始化加速正弦神经场的训练

BriefGPT - AI 论文速递 ·

该研究探讨了BERT微调中随机种子、权重初始化和训练数据排序对结果的影响，并提出最佳实践。通过引入分层噪声稳定性正则化（LNSR）等技术，显著提升了自然语言处理任务的泛化能力和稳定性。同时，研究分析了词元嵌入的非各向同性问题，提出了DefinitionEMB方法，改善了低频词的模型性能。

通过减少嵌入变异性实现稳定的语言模型预训练

BriefGPT - AI 论文速递 ·

分形几何是通过递归迭代生成图像的数学分支。研究发现，即使只有一个分形图像，也可以进行有效的预训练。通过引入局部扰动交叉熵损失函数，可以训练神经网络对小扰动进行分类。预训练可能只是更好的权重初始化，而不是发现有用视觉概念的必要条件。这对于减少预训练数据集的规模具有重要意义。

1p-frac：已开源，仅用单张分形图片即可媲美ImageNet的预训练效果 | ECCV 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

本文研究了带有ReLU激活函数的深度神经网络及其训练算法，探讨了循环神经网络的长期稳定性和鲁棒性，提出了新的权重初始化策略和随机梯度下降算法，并分析了训练样本数量与网络深度和输入维度的关系，展示了ReLU网络在多种任务中的有效性和优化过程的不同阶段。

离散时间 ReLU 循环神经网络的稳定性和性能分析

BriefGPT - AI 论文速递 ·

本文介绍了人工神经网络（ANN）的基本概念和实现过程，包括神经元、前馈过程、激活函数、权重初始化和偏差项等关键概念。使用NumPy库实现了一个简单的神经网络，并展示了如何使用训练好的模型进行预测。

使用NumPy演示实现神经网络过程

极道 ·

本文提出了一种生物启发的权重初始化方案，通过实验分析证明其可以提高深度卷积神经网络的准确性，展示了生物启发型计算模型在改善卷积网络效果方面的潜力。

神经回响：深层卷积滤波器复制生物感受野

BriefGPT - AI 论文速递 ·