小红花·文摘

变换器模型中的线性层和激活函数

MachineLearningMastery.com ·

本文探讨了超图数据中的线性层的置换不变性和等变性，提出了一种新的线性层架构，提升了深度神经网络在处理异构图数据时的性能，并在少量数据下实现良好推广。此外，文章讨论了等变神经网络的设计及其在复杂拓扑特征空间中的应用，具有重要的理论和实践意义。

通过不可约表示的视角重新审视多置换不变性

BriefGPT - AI 论文速递 ·

本文讲解如何用PyTorch创建自定义模型类`MyModel`，包含多个线性层和ReLU激活函数。通过`state_dict()`获取模型状态，`parameters()`返回参数迭代器。`train()`和`eval()`用于切换训练和评估模式。示例代码展示了模型参数定义、前向传播及模式切换。

PyTorch中的模块

DEV Community ·

本文介绍了一种基于动态更新的FP8线性层缩放方法，旨在提高大型语言模型（如GPT和Llama 2）的训练效率。研究表明，该方法在保持性能的同时，消除了矩阵乘法操作，并通过FP8混合精度训练框架显著降低了内存使用和提高了速度。此外，提出了新的训练方法和信号传播理论，以改善深度模型的训练效果，提升多种任务的性能。

Scalify: 针对高效低精度 LLM 训练的规模传播

BriefGPT - AI 论文速递 ·