小红花·文摘

自然语言处理经历了巨大的演变，传统的序列到序列模型依赖递归神经网络（RNN），但在处理长序列时存在信息瓶颈。为了解决这一问题，引入了注意力机制，使解码器能够动态关注输入序列的不同部分。现代的Transformer模型通过堆叠注意力层，能够高效处理复杂的序列数据，广泛应用于文本生成和图像处理等领域。

从递归神经网络到变换器

Louis Aeilot's Blog · 2026-04-07T22:30:09Z

向量嵌入生成器将文本、图像或代码等原始输入转换为数值向量，使相似概念聚集在一起，从而实现基于意义的检索，如聊天机器人和推荐引擎。选择合适的生成器对检索质量和基础设施成本至关重要。生成器通常基于变换器架构，能够捕捉上下文和意义。在评估生成器时，需要考虑模型选择、部署方式及其与实际数据的匹配程度。Redis提供快速的向量搜索和混合检索，适合生产环境。

向量嵌入生成器：工作原理及使用方法

Redis Blog · 2026-03-31T00:00:00Z

状态空间模型（SSMs）在序列建模中逐渐取代变换器，因其在长上下文生成中的高效性。研究表明，通过与外部工具互动，SSMs能够克服在“真正的长形式”生成中的局限，实现任意问题长度的泛化。这表明SSMs在交互式工具应用中可能成为变换器的高效替代方案。

超越无限：工具使用解锁状态空间模型中的长度泛化

Apple Machine Learning Research · 2026-03-27T00:00:00Z

本文介绍了并行轨道变换器（PT变换器），一种新型架构，旨在减少多GPU推理中的同步操作。与传统张量并行方法相比，PT变换器在保持模型质量的同时，减少了高达16倍的同步操作。该方法已集成到Tensor-RT-LLM和vLLM中，显著提高了服务效率，包括首次令牌响应时间减少15-30%、每个输出令牌时间减少2-12%以及吞吐量提高31.90%。

并行轨道变换器：通过减少同步操作实现快速GPU推理

Apple Machine Learning Research · 2026-02-10T00:00:00Z

到2026年，AI模型的瓶颈将是上下文而非模型本身。AI代理需从多种数据源提取信息，缺乏关键上下文会导致响应失效。上下文引擎将通过存储和索引结构化与非结构化数据，实现更快的响应和更低的成本。现代大型语言模型（LLM）如GPT和Claude利用变换器架构和注意力机制生成连贯文本。

变换器架构如何驱动现代大型语言模型

ByteByteGo Newsletter · 2026-02-02T16:31:12Z

本文介绍了构建图像描述生成模型的过程，该模型采用编码-解码架构，通过交叉注意力连接图像与文本。图像被分割成小块以生成特征，解码器生成描述。模型在Flickr8k数据集上训练，并通过随机采样提高泛化能力。尽管在简单场景中表现良好，但在复杂场景中仍存在困难。关键学习包括图像分块、交叉注意力的重要性和数据增强的影响。

从零开始构建图像描述生成变换器

Yi's blog · 2026-01-30T18:00:00Z

大型语言模型（LLMs）利用变换器架构将文本转化为数字表示。文本首先被分割为标记，随后每个标记转化为向量并注入位置信息。模型通过多头注意力机制和前馈神经网络逐步学习文本关系，最终预测下一个单词，从而生成连贯的输出。

变换器的思维方式：驱动语言模型运作的信息流

KDnuggets · 2025-12-15T15:00:43Z

本文介绍了将原始文本转换为机器学习模型可用的数值特征的方法，包括TF-IDF、GloVe词嵌入和基于变换器的嵌入。TF-IDF通过词频和文档频率突出文档独特性；GloVe通过词向量捕捉语义；变换器模型（如BERT）提供上下文感知的表示。选择方法需根据具体需求和资源限制。

针对非结构化文本数据的三种特征工程技术

MachineLearningMastery.com · 2025-12-12T16:09:37Z

本文介绍了变换器模型如何将输入标记转换为上下文感知的表示和下一个标记的概率。文本经过标记化和嵌入处理，加入位置信息。通过多头注意力机制和前馈神经网络，逐层提取和丰富标记的上下文信息，最终通过线性层和softmax计算生成下一个标记的概率。这一过程展示了大型语言模型的文本处理与生成能力。

标记的旅程：变换器内部究竟发生了什么

MachineLearningMastery.com · 2025-11-26T14:24:54Z

BERT是谷歌于2018年发布的自然语言处理模型，基于变换器架构，采用编码器结构，训练目标为预测输入序列中的掩码词。其变体包括RoBERTa（改进训练）、ALBERT（减少参数）和DistilBERT（知识蒸馏），在性能、大小和计算效率上各有不同。

BERT模型及其变体

MachineLearningMastery.com · 2025-11-22T18:20:15Z

本文介绍了一种基于自编码器变换器模型的自动缺陷预测方法，结合自适应差分进化（ADE）与量子变分自编码器-变换器（QVAET），显著提高了软件缺陷预测的准确性。ADE-QVAET在训练中实现了98.08%的高准确率，优于传统模型，为软件质量工程提供了新解决方案。

基于自编码器变换器模型的软件缺陷预测

Apple Machine Learning Research · 2025-10-15T00:00:00Z

本文介绍了如何使用PyTorch从零开始构建变换器模型的10天迷你课程，涵盖数据收集、分词器训练、位置编码和注意力机制等关键组件，适合有一定编程和机器学习基础的开发者。每节课约30分钟，通过实践，学员将掌握构建和训练变换器模型的技能。

使用PyTorch从零开始构建变换器模型（10天迷你课程）

MachineLearningMastery.com · 2025-10-12T03:45:31Z

手势和符号识别是计算机视觉的新兴领域，利用变换器模型（如ViT）构建实时手势识别工具。教程介绍了如何使用小型数据集训练变换器模型，并通过Gradio应用实现实时手势分类。强调可访问性和伦理问题，建议在实际应用中考虑多样性和用户需求。

使用变换器进行实时手势识别

freeCodeCamp.org · 2025-10-06T13:39:30Z

本文介绍了一种新的语言建模框架TarFlowLM，该框架利用基于变换器的自回归正则化流，将离散标记空间转变为连续潜在空间。此方法增强了模型的灵活性，支持双向上下文捕捉和分块生成，能够处理复杂的潜在依赖关系。实验结果表明，该框架在语言建模基准上表现优异，展现了其灵活的建模能力。

基于变换器的自回归流在连续空间中的灵活语言建模

Apple Machine Learning Research · 2025-09-22T00:00:00Z

本文探讨了扩散变换器（DiT）模型的归纳偏差对泛化能力的影响。研究发现，局部注意力窗口与泛化能力密切相关，通过限制注意力窗口并注入局部注意力，可以显著提高模型的泛化和生成质量，尤其在训练数据较少的情况下。优化DiT的归纳偏差有助于提升性能。

关于促进扩散变换器泛化能力的归纳偏差

Apple Machine Learning Research · 2025-09-22T00:00:00Z

本文提出了离散神经流采样器（DNFS），用于高效从非标准离散分布中采样。DNFS通过学习连续时间马尔可夫链的速率矩阵，满足Kolmogorov方程。为提高计算效率，采用局部等变变换器参数化速率矩阵，显著提升训练效率。实验证明，DNFS在非标准分布采样和组合优化问题解决中表现出色。

具有局部等变变换器的离散神经流采样器

Apple Machine Learning Research · 2025-09-22T00:00:00Z

句子相似性在自然语言处理中的重要性不言而喻。通过句子变换器，可以高效比较句子的语义。本文介绍了句子相似性的概念、句子变换器的原理及其在Python中的实现，包括加载预训练模型、将句子转换为嵌入和计算余弦相似度等。句子相似性广泛应用于语义搜索、重复检测和推荐系统等领域。

如何使用句子变换器进行句子相似性检查

freeCodeCamp.org · 2025-09-03T16:29:56Z

本文介绍了如何构建一个仅解码器的变换器模型，类似于Meta的Llama-2和Llama-3。该模型专注于文本生成，通过自监督学习进行训练，使用古腾堡项目的小说作为数据集，最终能够根据输入提示生成连贯的文本。

构建类似于Llama-2和Llama-3的仅解码器变换器模型

MachineLearningMastery.com · 2025-08-04T16:02:37Z

跳跃连接在变换器模型中至关重要，解决了深层网络中的梯度消失问题。它们通过直接连接输入和输出，促进信息流动，使模型能够学习残差函数。文章还讨论了预归一化和后归一化架构的区别，前者在训练稳定性和收敛速度上表现更佳，适用于现代变换器模型。

变换器模型中的跳跃连接

MachineLearningMastery.com · 2025-07-04T03:33:11Z

混合专家（MoE）架构在变换器模型中引入稀疏性，允许模型高效扩展而不增加计算成本。MoE通过多个专家模型处理输入，使用路由器选择合适的专家。每个变换器层都有独立的专家集，激活部分参数以提升性能。MoE的实现包括专家网络、路由机制和输出组合，能够在保持低计算资源的同时提升模型表现。

变换器模型中的混合专家架构

MachineLearningMastery.com · 2025-07-01T03:19:28Z

<<
<
1 (current)
2
3
>
>>