小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
独占自注意力

本文介绍了一种名为独占自注意力(XSA)的方法,旨在提升Transformer的序列建模性能。XSA通过限制注意力仅捕捉与令牌自身值向量正交的信息,从而改善上下文建模。在标准语言建模任务中,XSA在不同模型规模上均优于自注意力(SA),且随着序列长度增加,性能提升更为显著。

独占自注意力

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-25T00:00:00Z
最后一遍学习Transformer

本文介绍了Transformer模型的结构与工作原理,包括输入嵌入、位置编码、自注意力机制和多头注意力等模块,强调了缩放点积注意力的重要性及其通过交叉熵损失函数进行训练的方法。

最后一遍学习Transformer

plus studio
plus studio · 2026-01-02T00:00:00Z

Transformer 是一种处理序列的模型,通过向量化表示基本单元(token)并利用自注意力机制捕捉元素间关系。其核心在于上下文建模,以生成更丰富的表示,适用于语言和时序数据。Transformer 架构包括编码器、解码器和编码器-解码器,分别用于理解、生成和翻译任务。

Transformer 个人入门

xxxx的个人博客
xxxx的个人博客 · 2025-12-18T14:35:32Z
解码《注意力即全部所需》……

2017年提出的Transformer模型通过自注意力机制和多头注意力,彻底改变了深度学习和自然语言处理领域。该架构由编码器和解码器组成,广泛应用于现代AI模型,如GPT和BERT。

解码《注意力即全部所需》……

DEV Community
DEV Community · 2025-05-27T22:08:16Z

本研究重新审视自注意力实现的核主成分分析(KPCA),揭示了三大关键不一致,表明自注意力值向量与KPCA的期望结果不一致,并且对项目重建损失的解释存在误读,缺乏实证支持。

再生产研究:自注意力的核主成分分析解释经不起审查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z

本研究解决了单层自注意力和交叉注意力机制的逼近能力不足,提出将单头注意力视为输入域划分机制,证明其能够逼近任意连续函数,并扩展至Lebesgue可积函数。

Attention Mechanisms, Maximum Affine Partitioning, and Universal Approximation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z

本研究探讨了自注意力模型在序列映射中的普适逼近性,证明了两层自注意力和一层自注意力后接softmax函数能够逼近任意连续函数。

Softmax Attention's Universal Approximation Property

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-22T00:00:00Z

本文提出了一种名为AttentionDrop的新型随机正则化方法,旨在解决变换器模型在训练数据有限或噪声较大时的过拟合问题。该方法通过三种变体直接作用于自注意力分布,显著提高了模型的鲁棒性和输出稳定性。

AttentionDrop: A Novel Regularization Method for Transformer Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-16T00:00:00Z

本研究提出了一种增强的Transformer模块,旨在解决开放式故事可视化中的角色一致性和场景自然性问题。该方法结合自注意力和交叉注意力机制,以及预训练扩散模型,生成逻辑连贯的场景,表现优于现有技术,具有重要应用潜力。

Object Isolation Attention for Consistent Story Visualization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-30T00:00:00Z

本文提出了LOCATEdit,一种优化的跨注意力机制,用于文本引导的图像编辑。该方法通过图的自注意力补丁关系,显著改善了图像区域的一致性,优于现有技术,展示了其有效性。

LOCATEdit: Graph Laplacian Optimized Cross Attention Mechanism for Localized Text-Guided Image Editing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-27T00:00:00Z

本研究解决了多模态扩散变换器中自注意力层对位置嵌入和查询-键相似性的依赖,提出了一种无训练的图像编辑框架,提升了图像编辑质量并保持了原始语义内容。

FreeFlux:理解和利用基于RoPE的MMDiT中的层特定角色以实现多功能图像编辑

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本文介绍了N-gram模型和Word2Vec的基本概念。N-gram模型用于计算句子概率,捕捉短语结构和上下文关系,但存在局限性。Word2Vec通过降维和赋予词语语义信息,解决了传统one-hot编码的问题,增强了词与词之间的关联性。结合LSTM和自注意力机制,进一步提升了模型性能。

Word2Vec+LSTM+Attention恶意评论识别

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-03-02T11:02:52Z

本研究分析了变压器架构中自注意力与全连接层的逻辑关系,发现自注意力机制能够执行逻辑操作,值得进一步研究,可能影响未来模型设计。

Is the Logical Analysis of Transformers Performed in Self-Attention or in the Fully Connected Part?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-20T00:00:00Z

GPT的“思考引擎”由多头因果自注意力和前馈神经网络组成,前者通过单向交流捕捉上下文信息,后者独立处理每个词以提取特征。这两者协同工作,使模型能够理解语言并生成合理的文本。

GPT 的“思考引擎”:多头因果自注意力与前馈网络的精妙配合 - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2025-01-14T01:06:00Z

本研究探讨了室外环境下的基于距离的源分离(DSS),提出了一种结合两阶段conformer block和线性关系感知自注意力(RSA)的模型,显著提高了移动设备的能源效率和实时推断速度。

移动GPU在室外和室内环境中的基于距离的单通道源分离

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-06T00:00:00Z
🧠生成式人工智能 - 2

变压器架构是生成AI模型(如GPT和BERT)的基础,包含编码器和解码器。编码器处理输入数据并生成上下文表示,解码器则基于编码器的输出和先前生成的标记生成输出。自注意力机制和前馈层是其关键组件,位置编码解决了自注意力中位置信息丢失的问题,确保生成文本的连贯性。

🧠生成式人工智能 - 2

DEV Community
DEV Community · 2024-12-24T15:30:14Z

本文探讨了深度学习中的注意力机制,提出将自注意力机制分解为可学习的伪度量函数与信息传播过程。研究表明,该机制在灵活性和适应性上优于传统方法,并提出了一种改进的度量注意力机制,实验结果验证了其在训练效率、准确性和鲁棒性上的优势。

A Deep Understanding of the Working Principles of Attention Mechanisms in Deep Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-24T00:00:00Z

本研究提出DapPep框架,结合轻量级自注意力架构与预训练蛋白质语言模型,增强T细胞受体与抗原性肽结合的预测能力,尤其在数据稀缺的情况下,展现出临床应用潜力。

DapPep:领域自适应无肽学习的通用T细胞受体-抗原结合亲和力预测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-26T00:00:00Z
从课堂注意力到Transformer:语言学习与人工智能演变之旅

老师的“请注意”指令帮助学生集中注意力,类似于Transformer架构中的注意力机制,使模型关注输入数据的相关部分。自然语言处理(NLP)比分类或图像生成更复杂,因为语言涉及关系和上下文。Transformer通过自注意力机制灵活高效地处理语言,反映了人类的语言理解能力。

从课堂注意力到Transformer:语言学习与人工智能演变之旅

DEV Community
DEV Community · 2024-11-23T17:57:31Z

该论文探讨了自注意力在计算机视觉中的应用,提出了HaloNets和MaxViT等改进模型,提升了速度、内存使用和准确性。同时介绍了全自适应自注意力机制和GroupMixFormer模型,这些模型在图像分类和物体检测任务中表现优异,展示了自注意力在视觉任务中的潜力。

重新审视卷积与注意力在视觉主干中的整合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码