小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
LLM上下文窗口:理解与优化工作记忆

LLM的上下文窗口是模型一次处理的最大文本量,受自注意力机制和GPU内存带宽限制。现代模型的上下文窗口已扩展至128K-2M标记,但较小的窗口在实时对话和特定任务中表现更佳。在生产环境中,语义缓存和检索增强生成等策略能有效提升性能。

LLM上下文窗口:理解与优化工作记忆

Redis Blog
Redis Blog · 2026-01-23T00:00:00Z
小猫都能懂的大模型原理 3 - 自注意力机制

本文介绍了大语言模型的自注意力机制,强调其通过并行计算Token间相似度,克服传统RNN模型的局限性。自注意力机制利用Query、Key和Value向量计算注意力权重,动态调整对其他词的关注,生成上下文向量。

小猫都能懂的大模型原理 3 - 自注意力机制

UsubeniFantasy
UsubeniFantasy · 2025-12-02T10:12:47Z
小猫都能懂的大模型原理 2 - 初见大语言模型

人们越来越倾向于使用ChatGPT而非搜索引擎。GPT是生成式预训练Transformer,基于自注意力机制的深度学习架构。通过大量文本数据训练,模型能够流畅生成语言并理解多种语言的翻译。输入输出基于Token,模型通过神经网络预测下一个Token的概率,最终生成完整句子。

小猫都能懂的大模型原理 2 - 初见大语言模型

UsubeniFantasy
UsubeniFantasy · 2025-12-01T02:11:25Z

本章介绍大语言模型的基础架构,重点讲解Transformer架构、自注意力机制、预训练与微调、模型规模与能力关系,以及MoE架构等前沿技术,以帮助理解现代AI的核心原理和应用。

解码大模型:技术篇《1.1-基础架构概念》

京东科技开发者
京东科技开发者 · 2025-09-02T02:45:27Z

本章介绍了大模型的基础架构,重点讲解了Transformer架构、自注意力机制、预训练与微调、模型规模与能力的关系,以及MoE架构等前沿技术,以帮助理解现代大语言模型的核心技术。

解码大模型:技术篇《1.1-基础架构概念》

京东科技开发者
京东科技开发者 · 2025-09-01T09:01:59Z

ViT(视觉变换器)通过将图像分割为小块并利用自注意力机制,成为计算机视觉领域的重要模型。尽管缺乏先验知识,但在大数据集上表现优越。Swin Transformer在此基础上进一步改进,适应多尺度特征,提升检测和分割效果。

一文通透ViT:把图片划分成一个个patch块后再做注意力计算,打破CNN在CV领域的统治地位(含Swin Transformer的详解)

结构之法 算法之道
结构之法 算法之道 · 2025-08-22T14:37:43Z
构建用于语言翻译的Transformer模型

本文介绍了如何从零开始构建一个用于语言翻译的Transformer模型。Transformer架构通过自注意力机制替代传统递归神经网络,能够并行处理输入序列。文章涵盖数据准备、模型设计、训练和评估,强调了Transformer在捕捉长距离依赖和并行处理方面的优势。通过使用PyTorch实现,读者可以学习构建和训练完整翻译系统的步骤。

构建用于语言翻译的Transformer模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-08-02T02:57:12Z
10个大型语言模型关键概念解析

本文介绍了理解大型语言模型(LLMs)的十个关键术语,如变换器架构、自注意力机制、预训练和微调等。这些概念有助于理解LLMs的语言处理和输出生成,以及其在特定领域的应用,掌握这些术语有助于跟上AI发展的步伐。

10个大型语言模型关键概念解析

KDnuggets
KDnuggets · 2025-06-16T14:00:55Z

本研究提出了AttentionGuard框架,利用变压器和自注意力机制检测车辆编队系统中的不当行为。实验结果表明,该框架在攻击检测中的F1-score达到0.95,显示出在实时交通安全应用中的潜力。

AttentionGuard: Transformer-based Misbehavior Detection for Secure Vehicular Platoons

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本文探讨了自注意力机制在图信号处理中的局限性,提出了一种新方法——注意力图滤波器(AGF),通过奇异值域建模,提高了频率信息的利用效率。实验结果表明,AGF在多个任务中表现优异。

Learning Advanced Self-Attention of Linear Transformers in the Singular Value Domain

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本文提出了一种新方法——可微分代理间变换器(DIAT),旨在解决多智能体强化学习中的可解释性问题。DIAT通过自注意力机制学习人类可理解的通信协议,实验结果表明其在复杂环境中有效完成合作任务,展示了可解释通信的潜力。

可解释的紧急语言通过代理间变换器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-04T00:00:00Z

本研究提出CARL模型,解决光谱成像中因摄像机差异导致的模型通用性不足问题。该模型通过波长位置编码和自注意力机制,有效提取光谱信息,展现出在医疗成像、自动驾驶和卫星成像等领域的优越性能。

CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-27T00:00:00Z
解读人工智能术语:开发者理解基础知识指南

本文介绍了人工智能中的基本概念,包括分词、向量嵌入、位置编码和自注意力机制。分词将文本拆分为可处理单元,向量嵌入为单元赋予数学意义,位置编码帮助模型理解词序,自注意力机制使模型根据上下文理解词义。这些概念是现代大型语言模型理解和处理语言的基础。

解读人工智能术语:开发者理解基础知识指南

DEV Community
DEV Community · 2025-04-09T06:29:48Z
大型语言模型如何理解图像:看得见的人工智能背后的秘密

人工智能正从文本处理转向图像理解,得益于多模态学习。视觉变换器(ViT)和CLIP等模型通过共享嵌入空间,使AI能够同时处理文本和图像。AI将图像分割为小块,并利用自注意力机制理解整体上下文。这一进展提升了AI在搜索和自动图像描述等领域的能力,未来将整合视频和音频等信息。

大型语言模型如何理解图像:看得见的人工智能背后的秘密

DEV Community
DEV Community · 2025-03-22T03:18:00Z

本研究提出了ATTENTION2D方法,旨在解决传统自注意力机制在处理长序列时的计算和内存成本问题。该方法通过查询与键/值维度的并行性,实现了高效的分布与并行化,实验结果显示训练和推理速度提升了5至9.4倍。

ATTENTION2D: A Communication-Efficient Distributed Self-Attention Mechanism

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本文提出了一种动态双向Elman注意网络(DBEAN),旨在改善传统文本分类方法在处理复杂语言结构和语义依赖方面的不足。DBEAN结合了双向时序建模与自注意力机制,显著提升了上下文表示效果,同时保持计算效率,具有广泛的应用潜力。

动态双向Elman注意网络(DBEAN):增强文本分类的双向上下文感知表示学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

本研究提出KV-Distill框架,旨在压缩标准Transformer中自注意力机制的KV缓存,显著减少上下文长度达99%,同时保持预训练模型的性能。实验结果表明,KV-Distill在提取任务中优于其他压缩技术。

KV-Distill: Nearly Lossless Learnable Context Compression Method for Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-13T00:00:00Z

本研究提出了一种新方法,解决药用植物分类中的未知物种识别和层次分类不足问题。该方法结合DenseNet121、多尺度自注意力机制和级联分类器,实现了多层次准确分类,实验结果表明其在识别已知和未知物种方面表现优越,具有良好的实际应用潜力。

A Novel Approach to Navigating the Taxonomic Hierarchy for Addressing Open-World Scenarios in Medicinal Plant Classification

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z

大语言模型通过“填空”游戏进行预训练,picoGPT是一个用纯Python实现的简化版。模型接收文本和位置嵌入,利用基于Transformer的解码器层提取上下文信息,最后通过线性层和Softmax预测下一个词。理解解码器层的自注意力机制对掌握GPT原理至关重要。

像搭积木一样理解AI背后的“思考”过程 - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2025-01-13T09:18:00Z

该研究提出了一种新方法,将量子技术应用于自注意力机制,以改进图变换器在捕捉图结构归纳偏差方面的不足。GQWformer在图分类任务中显著优于现有算法,展示了量子计算与传统图神经网络结合的潜力。

GQWformer:一种基于量子的图表示学习变换器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-03T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码