小红花·文摘

本文介绍了AnnealSGD算法在深度网络中的应用，探讨了小批量训练对神经网络学习的影响，发现小批量大小显著影响泛化性能。研究还涉及热噪声模型、磁性描述的神经网络及Hopfield网络的鲁棒性，揭示了学习过程中的相变现象和上下文学习机制。

神经网络作为自旋模型：通过训练从玻璃到隐藏序的转变

BriefGPT - AI 论文速递 ·

本文提出了一种在分布式设置下使用节点采样的图神经网络的小批量训练与推断的方案，通过分析多跳邻域采样时的节点包含概率（VIP），提出基于 VIP 驱动的缓存策略，减少通信量，保持本地训练效率和可扩展性，并在常用节点特征上用 GPU 存储。实验结果表明，使用 SALIENT++ 在 8 个单 GPU 机器上训练 3 层 GraphSAGE 模型的速度比使用 SALIENT 在 1 个单 GPU 机器上快 7.1 倍，在 8 个单 GPU 机器上比使用 DistDGL 快 12.7 倍。

基于在线动态嵌入预测的减少陈旧性的分布式 GNN 训练

BriefGPT - AI 论文速递 ·