小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
LLM 训练与推理的基本理解

本文探讨了大型语言模型(LLM)的训练与推理过程,重点介绍了向量点积、Softmax、LayerNorm、Token化、BPE编码、位置嵌入、自注意力机制和多头注意力等关键概念。这些技术使模型能够理解词语的上下文关系并生成连贯的文本。训练过程中通过损失函数和反向传播优化模型参数,以提高预测准确性。

LLM 训练与推理的基本理解

Joway's Blog
Joway's Blog · 2026-05-17T00:00:00Z

本文探讨了自注意力机制的核心概念及其与传统模型的比较。自注意力允许序列内的每个token相互沟通,解决了RNN的长依赖问题。由于自注意力对位置无知,需通过位置编码注入位置信息。多头注意力使不同头学习不同关系。尽管自注意力在长序列处理上表现优异,但其计算复杂度为O(N²),引发了对优化的研究。

【Transformer 与注意力机制】14|Self-Attention:让序列自己看自己

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文总结了Transformer架构的关键组成部分及其工作流程,重点讲解了编码器和解码器的层次结构、自注意力机制、残差连接和位置编码的重要性。探讨了训练与推理的不同方式,以及三种变体(Encoder-only、Decoder-only、Encoder-Decoder)的应用场景和优缺点。最终指出,Decoder-only模型因其灵活性和效率在现代大语言模型中占主导地位。

【Transformer 与注意力机制】20|Transformer 整体架构:一张图看懂

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文讨论了Transformer模型中的位置编码,特别是正弦位置编码。由于自注意力机制的排列等变性,模型无法识别序列中token的顺序,因此需要引入位置信息。正弦位置编码通过sin和cos函数提供相对位置的线性表达能力,允许模型在不同位置之间进行有效学习。文章还探讨了绝对位置编码和相对位置编码的表现差异,强调了位置编码在模型性能和外推能力中的重要性。

【Transformer 与注意力机制】21|位置编码:为什么需要它,为什么用正弦

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
LLM上下文窗口:理解与优化工作记忆

LLM的上下文窗口是模型一次处理的最大文本量,受自注意力机制和GPU内存带宽限制。现代模型的上下文窗口已扩展至128K-2M标记,但较小的窗口在实时对话和特定任务中表现更佳。在生产环境中,语义缓存和检索增强生成等策略能有效提升性能。

LLM上下文窗口:理解与优化工作记忆

Redis Blog
Redis Blog · 2026-01-23T00:00:00Z
小猫都能懂的大模型原理 3 - 自注意力机制

本文介绍了大语言模型的自注意力机制,强调其通过并行计算Token间相似度,克服传统RNN模型的局限性。自注意力机制利用Query、Key和Value向量计算注意力权重,动态调整对其他词的关注,生成上下文向量。

小猫都能懂的大模型原理 3 - 自注意力机制

UsubeniFantasy
UsubeniFantasy · 2025-12-02T10:12:47Z
小猫都能懂的大模型原理 2 - 初见大语言模型

人们越来越倾向于使用ChatGPT而非搜索引擎。GPT是生成式预训练Transformer,基于自注意力机制的深度学习架构。通过大量文本数据训练,模型能够流畅生成语言并理解多种语言的翻译。输入输出基于Token,模型通过神经网络预测下一个Token的概率,最终生成完整句子。

小猫都能懂的大模型原理 2 - 初见大语言模型

UsubeniFantasy
UsubeniFantasy · 2025-12-01T02:11:25Z

本章介绍大语言模型的基础架构,重点讲解Transformer架构、自注意力机制、预训练与微调、模型规模与能力关系,以及MoE架构等前沿技术,以帮助理解现代AI的核心原理和应用。

解码大模型:技术篇《1.1-基础架构概念》

京东科技开发者
京东科技开发者 · 2025-09-02T02:45:27Z

本章介绍了大模型的基础架构,重点讲解了Transformer架构、自注意力机制、预训练与微调、模型规模与能力的关系,以及MoE架构等前沿技术,以帮助理解现代大语言模型的核心技术。

解码大模型:技术篇《1.1-基础架构概念》

京东科技开发者
京东科技开发者 · 2025-09-01T09:01:59Z

ViT(视觉变换器)通过将图像分割为小块并利用自注意力机制,成为计算机视觉领域的重要模型。尽管缺乏先验知识,但在大数据集上表现优越。Swin Transformer在此基础上进一步改进,适应多尺度特征,提升检测和分割效果。

一文通透ViT:把图片划分成一个个patch块后再做注意力计算,打破CNN在CV领域的统治地位(含Swin Transformer的详解)

结构之法 算法之道
结构之法 算法之道 · 2025-08-22T14:37:43Z
构建用于语言翻译的Transformer模型

本文介绍了如何从零开始构建一个用于语言翻译的Transformer模型。Transformer架构通过自注意力机制替代传统递归神经网络,能够并行处理输入序列。文章涵盖数据准备、模型设计、训练和评估,强调了Transformer在捕捉长距离依赖和并行处理方面的优势。通过使用PyTorch实现,读者可以学习构建和训练完整翻译系统的步骤。

构建用于语言翻译的Transformer模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-08-02T02:57:12Z
10个大型语言模型关键概念解析

本文介绍了理解大型语言模型(LLMs)的十个关键术语,如变换器架构、自注意力机制、预训练和微调等。这些概念有助于理解LLMs的语言处理和输出生成,以及其在特定领域的应用,掌握这些术语有助于跟上AI发展的步伐。

10个大型语言模型关键概念解析

KDnuggets
KDnuggets · 2025-06-16T14:00:55Z

本研究提出了AttentionGuard框架,利用变压器和自注意力机制检测车辆编队系统中的不当行为。实验结果表明,该框架在攻击检测中的F1-score达到0.95,显示出在实时交通安全应用中的潜力。

AttentionGuard: Transformer-based Misbehavior Detection for Secure Vehicular Platoons

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本文探讨了自注意力机制在图信号处理中的局限性,提出了一种新方法——注意力图滤波器(AGF),通过奇异值域建模,提高了频率信息的利用效率。实验结果表明,AGF在多个任务中表现优异。

Learning Advanced Self-Attention of Linear Transformers in the Singular Value Domain

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本文提出了一种新方法——可微分代理间变换器(DIAT),旨在解决多智能体强化学习中的可解释性问题。DIAT通过自注意力机制学习人类可理解的通信协议,实验结果表明其在复杂环境中有效完成合作任务,展示了可解释通信的潜力。

可解释的紧急语言通过代理间变换器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-04T00:00:00Z

本研究提出CARL模型,解决光谱成像中因摄像机差异导致的模型通用性不足问题。该模型通过波长位置编码和自注意力机制,有效提取光谱信息,展现出在医疗成像、自动驾驶和卫星成像等领域的优越性能。

CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-27T00:00:00Z
解读人工智能术语:开发者理解基础知识指南

本文介绍了人工智能中的基本概念,包括分词、向量嵌入、位置编码和自注意力机制。分词将文本拆分为可处理单元,向量嵌入为单元赋予数学意义,位置编码帮助模型理解词序,自注意力机制使模型根据上下文理解词义。这些概念是现代大型语言模型理解和处理语言的基础。

解读人工智能术语:开发者理解基础知识指南

DEV Community
DEV Community · 2025-04-09T06:29:48Z
大型语言模型如何理解图像:看得见的人工智能背后的秘密

人工智能正从文本处理转向图像理解,得益于多模态学习。视觉变换器(ViT)和CLIP等模型通过共享嵌入空间,使AI能够同时处理文本和图像。AI将图像分割为小块,并利用自注意力机制理解整体上下文。这一进展提升了AI在搜索和自动图像描述等领域的能力,未来将整合视频和音频等信息。

大型语言模型如何理解图像:看得见的人工智能背后的秘密

DEV Community
DEV Community · 2025-03-22T03:18:00Z

本研究提出了ATTENTION2D方法,旨在解决传统自注意力机制在处理长序列时的计算和内存成本问题。该方法通过查询与键/值维度的并行性,实现了高效的分布与并行化,实验结果显示训练和推理速度提升了5至9.4倍。

ATTENTION2D: A Communication-Efficient Distributed Self-Attention Mechanism

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本文提出了一种动态双向Elman注意网络(DBEAN),旨在改善传统文本分类方法在处理复杂语言结构和语义依赖方面的不足。DBEAN结合了双向时序建模与自注意力机制,显著提升了上下文表示效果,同时保持计算效率,具有广泛的应用潜力。

动态双向Elman注意网络(DBEAN):增强文本分类的双向上下文感知表示学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码