小红花·文摘

本文详细解析了Transformer模型的训练配方，包括超参数选择、warmup的重要性、学习率公式设计、dropout和label smoothing的应用。通过对比2017年与现代大模型的训练方法，指出核心训练策略基本保持不变，这些细节对于复现原论文的BLEU分数至关重要。

【Transformer 与注意力机制】27｜原论文怎么训出来的：8 张 P100、12 小时、warmup 4000 步

土法炼钢兴趣小组的博客 ·

东京大学和麦吉尔大学提出的SUICA模型利用隐式神经表征和图自编码器对空间转录组数据进行建模，显著提升数据质量和生物信号。SUICA在基因表达预测中表现优异，有效减少噪声并缓解dropout现象，推动空间转录组技术在研究和临床应用中的发展。

数据降噪/生物信号强化/缓解 dropout，深度学习模型 SUICA 实现空间转录组切片中任一位置基因表达的预测

HyperAI超神经 ·

东京大学和麦吉尔大学提出了SUICA，一种基于隐式神经表征和图自编码器的空间转录组数据建模方法。SUICA通过降维和建模，提高了空间转录组数据的质量，降低了噪声，增强了生物信号，能够准确预测基因表达。实验结果表明，SUICA在去噪和恢复基因表达方面表现优异，具有广泛的应用潜力。

数据降噪/生物信号强化/缓解dropout，深度学习模型SUICA实现空间转录组切片中任一位置基因表达的预测

HyperAI超神经 ·

理解神经网络中的Dropout层

DEV Community ·

Triton是一种基于Python的并行编程语言，旨在高效实现深度神经网络计算内核。本文介绍了如何使用Triton实现内存高效的Dropout，通过单个种子管理状态，减少内存占用并简化管理。示例代码展示了如何生成一致的Dropout掩码，从而提升性能。

在 PyTorch 中的过拟合与欠拟合

DEV Community ·

Dropout Layer是一个随机将张量中的元素置零或乘以一个值的操作。可以通过设置“p”参数来确定元素被置零的概率。通过设置“inplace”参数，可以决定操作是否原地执行。文章提供了使用不同张量的Dropout Layer的示例。

PyTorch中的Dropout()

DEV Community ·

该研究探讨了dropout作为正则化技术在不同线性分类问题中的应用，分析了其优势及与其他方法的比较。结果表明，dropout能有效提高模型的稳定性，优于传统的最大似然方法，实验结果支持其在优化过程中的有效性和收敛性。

带Dropout正则化的随机梯度下降的渐近理论研究

BriefGPT - AI 论文速递 ·

本研究比较了Dropout和随机Delta规则（SDR）算法在神经网络参数估计中的表现，结果显示SDR优于Dropout。提出的上下文辍学模块和R-Drop方法在多个深度学习任务中表现出色，有效防止过拟合。此外，AD-DROP策略通过注意力机制提升模型预测能力。研究还探讨了小规模语言模型的预训练效果及模型崩溃问题，提出混合真实与合成数据的训练方法以避免崩溃。

STLM工程报告： dropout

BriefGPT - AI 论文速递 ·

该研究提出了一种结合 alpha-divergence 和 dropout 的新方法，以准确估计深度学习模型的不确定性。通过变分 Renyi 界限，扩展了变分推理，并在贝叶斯神经网络和变分自编码器上验证了其有效性。同时，研究探讨了基于广义差异度量的偏置重要性采样方法，提升了数据拟合效果。

Alpha-VI DeepONet: 一种增强深度神经网络的先验鲁棒性变分贝叶斯方法与不确定性量化

BriefGPT - AI 论文速递 ·

基于图神经网络（GNN）的随机抛弃法的泛化误差优化方法 FlexiDrop 在实验中表现出比传统随机抛弃方法更好的性能。

FlexiDrop：GNN 中随机 Dropout 方法的理论洞见和实际进展

BriefGPT - AI 论文速递 ·

该论文提出一种基于深度学习的推文机器人检测方法，利用元数据作为辅助输入，通过合成少数过抽样技术生成大型标记数据集。该方法在账户级别检测中准确度高，即使数据量小，特征可解释，也能从单个推文中高效区分机器人和人类。

利用 Dropout-GAN 进行社交媒体机器人检测

BriefGPT - AI 论文速递 ·

Bayes by Backprop是一种基于Backprop的方法，用于在神经网络的权重上学习概率分布，以最小化压缩成本来规范权重。该方法在MNIST分类任务上表现出与dropout相当的性能，并且可以用来提高泛化能力和驱动强化学习中的探索和开发之间的平衡。

本文介绍了 BLiP-2 模型的代码，包括模型架构、训练参数、配置文件和测试评估代码。Blip2TextEncoder 类实现了文本编码为隐藏表示，Blip2Encoder 类实现了图像和文本编码为隐藏表示。在 forward() 函数中，Blip2Encoder 类根据输入类型调用相应的编码器，然后将它们的输出连接并应用 dropout 层。最后，使用融合门控制图像和文本的贡献，并返回输出和注意力值。