小红花·文摘 - 小红花技术领袖俱乐部

标记的旅程：变换器内部究竟发生了什么

标记的旅程：变换器内部究竟发生了什么

MachineLearningMastery.com ·

使用PyTorch从零开始构建变换器模型（10天迷你课程）

使用PyTorch从零开始构建变换器模型（10天迷你课程）

MachineLearningMastery.com ·

使用变换器进行实时手势识别

使用变换器进行实时手势识别

freeCodeCamp.org ·

构建类似于Llama-2和Llama-3的仅解码器变换器模型

构建类似于Llama-2和Llama-3的仅解码器变换器模型

MachineLearningMastery.com ·

变换器模型中的跳跃连接

变换器模型中的跳跃连接

MachineLearningMastery.com ·

变换器模型中的混合专家架构

变换器模型中的混合专家架构

MachineLearningMastery.com ·

变换器模型中的线性层和激活函数

变换器模型中的线性层和激活函数

MachineLearningMastery.com ·

变换器模型中的LayerNorm和RMS Norm

变换器模型中的LayerNorm和RMS Norm

MachineLearningMastery.com ·

变换器模型中的位置编码

变换器模型中的位置编码

MachineLearningMastery.com ·

变换器模型中的编码器和解码器

变换器模型中的编码器和解码器

MachineLearningMastery.com ·

本文介绍了一种名为Moonbeam的变换器模型，旨在解决符号音乐建模中的数据效率和模型能力不足问题。Moonbeam通过创新的标记化方法和多维相对注意力机制，超越了其他大型预训练模型，推动了音乐生成研究的发展。

月光：一种同时利用绝对和相对音乐属性的MIDI基础模型

BriefGPT - AI 论文速递 ·

本研究提出因果头门控方法（CHG），旨在解决变换器模型中注意力头功能理解的不足。该方法通过学习软门控，为注意力头提供因果分类，适用于各种数据集，揭示因果关系。研究发现多个稀疏子电路，指令遵循和上下文学习依赖于可分离机制。

因果头门控：解释变换器中注意力头角色的框架

BriefGPT - AI 论文速递 ·

理解变换器中的文本生成参数

理解变换器中的文本生成参数

MachineLearningMastery.com ·

本文提出了一种名为AttentionDrop的新型随机正则化方法，旨在解决变换器模型在训练数据有限或噪声较大时的过拟合问题。该方法通过三种变体直接作用于自注意力分布，显著提高了模型的鲁棒性和输出稳定性。

AttentionDrop: A Novel Regularization Method for Transformer Models

BriefGPT - AI 论文速递 ·

在变换器中生成和可视化上下文向量

在变换器中生成和可视化上下文向量

MachineLearningMastery.com ·

4o图像生成 - 扩散/变换器交叉趋势？

4o图像生成 - 扩散/变换器交叉趋势？

DEV Community ·

本研究探讨了变换器模型（如BERT和GPT）在自然语言处理中的应用，提出了一种新方法，显著提升了机器对人类文本的理解能力，尤其在长范围依赖性和特征提取方面表现突出。

Advancements in Natural Language Processing: Exploring Transformer-Based Text Understanding Architectures

BriefGPT - AI 论文速递 ·

本研究提出了XAttention框架，旨在解决长上下文变换器模型的计算成本问题。通过稀疏注意力加速推理，利用反对角值之和作为块重要性代理，实现高效的块识别与剪枝，最终实现高达13.5倍的计算加速。

XAttention: Block Sparse Attention with Antidiagonal Scoring

BriefGPT - AI 论文速递 ·

《百页语言模型书》由安德里·布尔科夫撰写，旨在帮助读者理解大型语言模型（LLM）。书中涵盖机器学习基础、语言模型原理、递归神经网络、变换器模型及现代LLM的影响，适合初学者和专业人士，提供深入的技术基础，助力人工智能领域的学习与应用。

《百页语言模型书：大型语言模型的精彩技术入门》

KDnuggets ·

高效流式音视频主动说话者检测系统

高效流式音视频主动说话者检测系统

Apple Machine Learning Research ·