小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
变压器模型如何在语言处理中的工作原理

变压器是自然语言处理的核心,通过注意力机制提升模型的效率和准确性。它能够并行处理,捕捉长距离依赖关系。本文介绍了变压器的原理、构建方法及实际应用。

变压器模型如何在语言处理中的工作原理

freeCodeCamp.org
freeCodeCamp.org · 2025-09-12T16:39:42Z
评估代码生成大型语言模型中的长距离依赖处理能力

随着语言模型支持更大的上下文,评估其有效利用能力变得重要。我们分析了多个代码生成模型在处理长距离依赖时的表现,发现许多模型在引用后定义的函数时性能显著下降。使用滑动窗口注意力机制的模型在处理超出窗口大小的引用时也存在困难。通过简单的提示修改,我们提高了多步骤检索性能,表明长上下文性能需要更多关注。

评估代码生成大型语言模型中的长距离依赖处理能力

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z
多头注意力与分组查询注意力的温和介绍

本文介绍了多头注意力机制和分组查询注意力的基本概念。注意力机制帮助模型理解序列中词语之间的关系,尤其在长距离依赖情况下。多头注意力通过多个投影矩阵并行处理信息,提高模型表现;分组查询注意力通过共享键和值的投影降低计算成本,提升效率。

多头注意力与分组查询注意力的温和介绍

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-19T20:00:58Z

本研究提出了一种新的基于块的推理方法,以提高长上下文递归大型语言模型的性能。实验结果显示,该方法在LongBench v2基准测试中显著提升了多种模型的表现,质疑了递归模型处理长距离依赖关系的有效性。

Overflow Prevention Enhances Long-Context Recurrent LLMs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z
Multi-Token突破注意力机制瓶颈,Meta发明了一种很新的Transformer

研究者提出了一种新型注意力机制——Multi-Token 注意力(MTA),旨在克服标准注意力在处理长上下文时的局限性。MTA通过卷积运算结合多个向量的相似性,更有效地关注相关信息。实验结果表明,MTA在语言建模和长距离依赖任务中优于传统方法,且参数增加极小。

Multi-Token突破注意力机制瓶颈,Meta发明了一种很新的Transformer

机器之心
机器之心 · 2025-04-04T10:23:57Z

本研究提出了GLADMamba框架,解决了无监督图级异常检测中的长距离依赖和光谱信息忽视问题。通过选择性状态空间模型,GLADMamba在12个真实数据集上显著提升了检测性能。

GLADMamba: Unsupervised Graph-Level Anomaly Detection Based on Selective State Space Model

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-23T00:00:00Z

Transformer模型是一种基于注意力机制的序列转换架构,摒弃了循环和卷积结构,尤其在机器翻译中表现优异,训练速度快,能有效建模长距离依赖关系,创造了新的翻译最佳效果。

[译][论文] Transformer paper | Attention Is All You Need(Google,2017)

ARTHURCHIAO'S BLOG
ARTHURCHIAO'S BLOG · 2025-02-23T00:00:00Z
你是否想过人工智能是如何像你一样“看”的?初学者的注意力指南

大型语言模型中的注意力机制帮助理解单词间关系,生成有意义的回应。注意力机制像聚光灯,聚焦句子中的不同单词,评估其重要性。多头注意力使模型从多个角度理解文本,处理长距离依赖,提升自然语言处理能力。

你是否想过人工智能是如何像你一样“看”的?初学者的注意力指南

DEV Community
DEV Community · 2025-02-19T02:05:21Z

本研究提出KM-UNet,结合Kolmogorov-Arnold网络与状态空间模型,解决传统卷积神经网络的长距离依赖和变换器的计算复杂性。实验结果表明其在医学图像分割中表现优异,提供了高效且可解释的新基线。

KM-UNet KAN Mamba UNet用于医学图像分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-05T00:00:00Z

本文提出了一种新型生成模型,旨在改善会话中的下一个项目推荐,解决了现有模型在长距离依赖关系建模上的不足。该模型通过突出卷积层和残差块结构,提高了推荐系统的准确性和训练效率,尤其在处理长序列用户反馈时表现突出。

GRAINRec:图与注意力集成的实时会话推荐模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z
重新思考自注意力机制:用于捕捉长距离依赖关系的多项式激活

本文介绍了一种新的自注意力机制“多项式激活自注意力”(SAPA),替代了变换器模型中的softmax函数。SAPA通过多项式函数计算注意力权重,更有效地捕捉长距离依赖关系。研究表明,SAPA在某些语言建模和文本分类任务中优于softmax,但并非在所有任务中都表现更佳,仍需进一步探讨其优缺点。

重新思考自注意力机制:用于捕捉长距离依赖关系的多项式激活

DEV Community
DEV Community · 2024-10-27T06:58:24Z

本文介绍了Transformer模型,它由谷歌于2017年提出,克服了RNN和LSTM的局限。通过自注意力机制实现并行处理,解决长距离依赖问题。核心组件包括注意力机制、位置编码、多头注意力等。Transformer具有并行化、长距离依赖处理和多功能性,广泛应用于NLP等领域。

大型语言模型基础:Transformer模型

DEV Community
DEV Community · 2024-10-12T17:39:31Z

本文提出了一种新的时间行动定位(TAL)架构,通过特征聚合和循环机制,能够捕捉长距离依赖和时间因果关系。实验证明该方法在多个基准数据集上取得了优越结果,为未来的研究奠定了基础。

基于增强记忆的 Transformer 的在线时态行为定位

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-06T00:00:00Z

该文章提出了一种新的时间行动定位(TAL)架构,通过特征聚合和循环机制,能够捕捉长距离依赖和时间因果关系。实验证明该方法在多个基准数据集上取得了优越结果,为未来的研究奠定了基础。

增强时态行动定位:带有循环机制的先进 S6 建模

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z

Orchid是一种新颖的架构,通过整合一种新的数据相关卷积机制,平衡了表达能力和计算效率。它在保持效率和线性可扩展性的同时,捕捉了长距离依赖和上下文学习。Orchid在较小的模型尺寸和处理更长序列长度方面优于传统的基于注意力的架构,如BERT和Vision Transformers。这代表了序列建模中高效可扩展深度学习模型的重要进展。

Orchid:灵活和数据相关的序列建模卷积

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-28T00:00:00Z

本文研究了图神经网络在自我对战强化学习中的应用。结果显示,图神经网络在处理长距离依赖和降低过拟合方面具有优势,但在辨别局部模式方面不如卷积神经网络。这表明在自我对战强化学习中,使用游戏特定结构可能会改变学习的范式。

从图像到连接:DQN 与 GNN 能否学习 Hex 的战略游戏?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-22T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码