小红花·文摘

LLM上下文窗口：理解与优化工作记忆

Redis Blog ·

小猫都能懂的大模型原理 3 - 自注意力机制

UsubeniFantasy ·

小猫都能懂的大模型原理 2 - 初见大语言模型

UsubeniFantasy ·

本章介绍大语言模型的基础架构，重点讲解Transformer架构、自注意力机制、预训练与微调、模型规模与能力关系，以及MoE架构等前沿技术，以帮助理解现代AI的核心原理和应用。

解码大模型：技术篇《1.1-基础架构概念》

京东科技开发者 ·

本章介绍了大模型的基础架构，重点讲解了Transformer架构、自注意力机制、预训练与微调、模型规模与能力的关系，以及MoE架构等前沿技术，以帮助理解现代大语言模型的核心技术。

解码大模型：技术篇《1.1-基础架构概念》

京东科技开发者 ·

ViT（视觉变换器）通过将图像分割为小块并利用自注意力机制，成为计算机视觉领域的重要模型。尽管缺乏先验知识，但在大数据集上表现优越。Swin Transformer在此基础上进一步改进，适应多尺度特征，提升检测和分割效果。

一文通透ViT：把图片划分成一个个patch块后再做注意力计算，打破CNN在CV领域的统治地位(含Swin Transformer的详解)

结构之法算法之道 ·

构建用于语言翻译的Transformer模型

MachineLearningMastery.com ·

10个大型语言模型关键概念解析

KDnuggets ·

本研究提出了AttentionGuard框架，利用变压器和自注意力机制检测车辆编队系统中的不当行为。实验结果表明，该框架在攻击检测中的F1-score达到0.95，显示出在实时交通安全应用中的潜力。

AttentionGuard: Transformer-based Misbehavior Detection for Secure Vehicular Platoons

BriefGPT - AI 论文速递 ·

本文探讨了自注意力机制在图信号处理中的局限性，提出了一种新方法——注意力图滤波器（AGF），通过奇异值域建模，提高了频率信息的利用效率。实验结果表明，AGF在多个任务中表现优异。

Learning Advanced Self-Attention of Linear Transformers in the Singular Value Domain

BriefGPT - AI 论文速递 ·

本文提出了一种新方法——可微分代理间变换器（DIAT），旨在解决多智能体强化学习中的可解释性问题。DIAT通过自注意力机制学习人类可理解的通信协议，实验结果表明其在复杂环境中有效完成合作任务，展示了可解释通信的潜力。

可解释的紧急语言通过代理间变换器

BriefGPT - AI 论文速递 ·

本研究提出CARL模型，解决光谱成像中因摄像机差异导致的模型通用性不足问题。该模型通过波长位置编码和自注意力机制，有效提取光谱信息，展现出在医疗成像、自动驾驶和卫星成像等领域的优越性能。

CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis

BriefGPT - AI 论文速递 ·

解读人工智能术语：开发者理解基础知识指南

DEV Community ·

大型语言模型如何理解图像：看得见的人工智能背后的秘密

DEV Community ·

本研究提出了ATTENTION2D方法，旨在解决传统自注意力机制在处理长序列时的计算和内存成本问题。该方法通过查询与键/值维度的并行性，实现了高效的分布与并行化，实验结果显示训练和推理速度提升了5至9.4倍。

ATTENTION2D: A Communication-Efficient Distributed Self-Attention Mechanism

BriefGPT - AI 论文速递 ·

本文提出了一种动态双向Elman注意网络（DBEAN），旨在改善传统文本分类方法在处理复杂语言结构和语义依赖方面的不足。DBEAN结合了双向时序建模与自注意力机制，显著提升了上下文表示效果，同时保持计算效率，具有广泛的应用潜力。

动态双向Elman注意网络（DBEAN）：增强文本分类的双向上下文感知表示学习

BriefGPT - AI 论文速递 ·

本研究提出KV-Distill框架，旨在压缩标准Transformer中自注意力机制的KV缓存，显著减少上下文长度达99%，同时保持预训练模型的性能。实验结果表明，KV-Distill在提取任务中优于其他压缩技术。

KV-Distill: Nearly Lossless Learnable Context Compression Method for Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，解决药用植物分类中的未知物种识别和层次分类不足问题。该方法结合DenseNet121、多尺度自注意力机制和级联分类器，实现了多层次准确分类，实验结果表明其在识别已知和未知物种方面表现优越，具有良好的实际应用潜力。

A Novel Approach to Navigating the Taxonomic Hierarchy for Addressing Open-World Scenarios in Medicinal Plant Classification

BriefGPT - AI 论文速递 ·

大语言模型通过“填空”游戏进行预训练，picoGPT是一个用纯Python实现的简化版。模型接收文本和位置嵌入，利用基于Transformer的解码器层提取上下文信息，最后通过线性层和Softmax预测下一个词。理解解码器层的自注意力机制对掌握GPT原理至关重要。

像搭积木一样理解AI背后的“思考”过程 - 蝈蝈俊

蝈蝈俊 ·

该研究提出了一种新方法，将量子技术应用于自注意力机制，以改进图变换器在捕捉图结构归纳偏差方面的不足。GQWformer在图分类任务中显著优于现有算法，展示了量子计算与传统图神经网络结合的潜力。

GQWformer：一种基于量子的图表示学习变换器

BriefGPT - AI 论文速递 ·