小红花·文摘

神经网络通过前向传播、损失计算、反向传播和梯度下降进行训练。每个神经元执行线性打分和非线性激活，多个神经元组成层，层与层之间的非线性使网络能够拟合复杂函数。递归神经网络（RNN）通过引入状态，克服了多层感知器（MLP）在序列任务中的局限性。训练过程是参数在损失曲面上逐步优化的过程。

【Transformer 与注意力机制】08.5 神经网络基础：从 MLP 到 RNN 的最后一块地基

土法炼钢兴趣小组的博客 ·

本文讨论了大语言模型（LLM）的训练过程，包括初始预训练、继续预训练、监督微调、对齐训练和蒸馏等阶段，重点在于通过不同阶段的训练提升模型能力，特别是在特定领域的应用。蒸馏作为一种压缩模型的方法，旨在降低计算成本的同时保留重要能力。文章还强调了数据质量、任务覆盖和不同阶段的算力需求的重要性。

大预言模型的基石：Transformer 入坑笔记（一） - 大模型训练链路

I'm OWenT ·

Gemini 确诊重度焦虑：为了让 AI 像人，我们把它逼疯了

爱范儿 ·

周刊第16期: Andrej Karpathy 讲 AI

胡涂说 ·

本研究探讨了深度神经网络的泛化能力，揭示了训练过程中可泛化与不可泛化交互的动态，发现早期去噪声有助于学习简单的可泛化交互，呈现出三阶段的动态过程。

深度神经网络泛化能力的三阶段动态分析

BriefGPT - AI 论文速递 ·

OpenAI的新模型o3和o4-mini的幻觉率显著上升，o3的幻觉率是o1的两倍，o4-mini则是三倍。用户反馈模型常常捏造代码和信息，并在质疑时推卸责任。OpenAI承认需要进一步研究原因，推测可能与训练过程中的奖励机制和上下文信息不足有关。

o3/o4-mini幻觉暴增2-3倍！OpenAI官方承认暂无法解释原因

量子位 ·

大型语言模型只是增强版的ETL管道吗？重新思考人工智能训练

DEV Community ·

如何使用TensorFlow对自定义数据集进行迁移学习？

DEV Community ·

学习机器学习概念与生成性人工智能

freeCodeCamp.org ·

DeepSeek R1与OpenAI模型文风相似度高达74.2%？新研究质疑DeepSeek训练数据

机器之心 ·

MM1.5：多模态大语言模型微调的方法、分析与洞察

Apple Machine Learning Research ·

本文介绍了生成对抗网络（DCGAN）的基本概念及实现，重点讲解如何训练生成器和判别器以生成名人头像。使用Celeb-A数据集，详细阐述了模型结构、参数设置、损失函数和训练过程，帮助读者理解GAN的原理和应用。

C# 深度学习：对抗生成网络(GAN)训练头像生成模型

dotNET跨平台 ·

本研究提出了一种新的列级量化方法，旨在解决深度神经网络中的量化误差和低位权重限制问题。该方法提高了准确性，简化了训练过程，并增强了对内存单元变化的鲁棒性。实验结果表明，该方法在准确性和硬件效率上均优于相关研究。

Column-wise Quantization of Weights and Partial Sums for Accurate and Efficient Compute-In-Memory Accelerators

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，解决深度神经网络训练中比特宽度不一致的问题，降低存储成本并优化训练过程，验证了其在多个任务上的有效性。

Nearly Lossless Adaptive Bit Switching

BriefGPT - AI 论文速递 ·

用初中数学理解LLM工作原理

OneFlow深度学习框架 ·

本文介绍了使用DCGAN生成漫画头像的方法，包括数据准备、网络模型构建和训练过程。通过提高生成器和判别器的性能来生成更真实和高质量的图像。

教你基于MindSpore用DCGAN生成漫画头像

华为云官方博客 ·

ChatGPT、Transformer 与注意力机制

teobler ·

rust手写神经网络

kirito的博客 ·

本文详细介绍了RAD-NeRF模型的训练过程，包括系统环境介绍、练习环境建立和完整练习流程。练习需求CUDA和至少24G的GPU显存。

RAD-NeRF数字人模型训练详解

六虎 ·

Transformer温习整理

Anjhon’s Blog ·