小红花·文摘

本文讨论了生成模型与判别模型的区别。生成模型学习数据的概率分布，而判别模型则关注于根据输入数据预测标签。介绍了自回归模型、变分自编码器（VAE）和生成对抗网络（GAN）的基本原理及训练方法。变分自编码器通过编码器和解码器提取特征，生成对抗网络通过生成器和判别器进行对抗训练。最后，探讨了扩散模型在图像生成中的稳定性和多样性。

CS231n 讲义：生成模型

Louis Aeilot's Blog ·

自监督学习使得在无需手动标注数据集的情况下训练神经网络成为可能。通过定义基于数据的预训练任务，自动生成标签并训练编码器以获取表示，这些表示可用于下游任务。常见的预训练任务包括图像补全、旋转预测和对比学习。模型性能评估方法包括线性评估、聚类和可视化。掩码自编码器（MAE）通过掩盖输入的部分补丁进行训练以重建图像，而对比表示学习则通过正负样本的评分函数优化编码器。

CS231n 讲义：自监督学习

Louis Aeilot's Blog ·

现代人工智能训练采用分布式架构，利用多个GPU进行大规模神经网络训练。主要挑战在于高效分配工作负载和同步加速器。应用数据并行性、完全分片数据并行性和混合分片数据并行性等技术，以降低内存使用并提高效率。同时，激活检查点和上下文并行性等方法也用于优化内存和计算性能。

CS231n 讲义：大规模分布式训练

Louis Aeilot's Blog ·

递归神经网络（RNN）用于处理序列数据，具备内部状态（记忆），适应多种输入输出结构。RNN通过递归公式更新隐藏状态并生成输出。长短期记忆（LSTM）通过门控机制解决梯度消失问题，增强信息流动。

CS231n 讲义 VII：递归神经网络

Louis Aeilot's Blog ·

本文讨论了卷积神经网络（CNN）的架构和训练方法，包括归一化层、正则化（如Dropout）、激活函数（如ReLU和GELU）、残差网络（ResNet）和权重初始化（Kaiming初始化）。还介绍了数据预处理、数据增强、迁移学习策略及超参数优化步骤，强调系统调试的重要性，指出大多数失败源于基本设置问题，而非超参数选择。