小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
变压器模型如何在语言处理中的工作原理

变压器是自然语言处理的核心,通过注意力机制提升模型的效率和准确性。它能够并行处理,捕捉长距离依赖关系。本文介绍了变压器的原理、构建方法及实际应用。

变压器模型如何在语言处理中的工作原理

freeCodeCamp.org
freeCodeCamp.org · 2025-09-12T16:39:42Z
评估代码生成大型语言模型中的长距离依赖处理能力

随着语言模型支持更大的上下文,评估其有效利用能力变得重要。我们分析了多个代码生成模型在处理长距离依赖时的表现,发现许多模型在引用后定义的函数时性能显著下降。使用滑动窗口注意力机制的模型在处理超出窗口大小的引用时也存在困难。通过简单的提示修改,我们提高了多步骤检索性能,表明长上下文性能需要更多关注。

评估代码生成大型语言模型中的长距离依赖处理能力

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z
多头注意力与分组查询注意力的温和介绍

本文介绍了多头注意力机制和分组查询注意力的基本概念。注意力机制帮助模型理解序列中词语之间的关系,尤其在长距离依赖情况下。多头注意力通过多个投影矩阵并行处理信息,提高模型表现;分组查询注意力通过共享键和值的投影降低计算成本,提升效率。

多头注意力与分组查询注意力的温和介绍

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-19T20:00:58Z

本研究提出了一种新的基于块的推理方法,以提高长上下文递归大型语言模型的性能。实验结果显示,该方法在LongBench v2基准测试中显著提升了多种模型的表现,质疑了递归模型处理长距离依赖关系的有效性。

Overflow Prevention Enhances Long-Context Recurrent LLMs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z
Multi-Token突破注意力机制瓶颈,Meta发明了一种很新的Transformer

研究者提出了一种新型注意力机制——Multi-Token 注意力(MTA),旨在克服标准注意力在处理长上下文时的局限性。MTA通过卷积运算结合多个向量的相似性,更有效地关注相关信息。实验结果表明,MTA在语言建模和长距离依赖任务中优于传统方法,且参数增加极小。

Multi-Token突破注意力机制瓶颈,Meta发明了一种很新的Transformer

机器之心
机器之心 · 2025-04-04T10:23:57Z

本研究提出了GLADMamba框架,解决了无监督图级异常检测中的长距离依赖和光谱信息忽视问题。通过选择性状态空间模型,GLADMamba在12个真实数据集上显著提升了检测性能。

GLADMamba: Unsupervised Graph-Level Anomaly Detection Based on Selective State Space Model

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-23T00:00:00Z

Transformer模型是一种基于注意力机制的序列转换架构,摒弃了循环和卷积结构,尤其在机器翻译中表现优异,训练速度快,能有效建模长距离依赖关系,创造了新的翻译最佳效果。

[译][论文] Transformer paper | Attention Is All You Need(Google,2017)

ARTHURCHIAO'S BLOG
ARTHURCHIAO'S BLOG · 2025-02-23T00:00:00Z
你是否想过人工智能是如何像你一样“看”的?初学者的注意力指南

大型语言模型中的注意力机制帮助理解单词间关系,生成有意义的回应。注意力机制像聚光灯,聚焦句子中的不同单词,评估其重要性。多头注意力使模型从多个角度理解文本,处理长距离依赖,提升自然语言处理能力。

你是否想过人工智能是如何像你一样“看”的?初学者的注意力指南

DEV Community
DEV Community · 2025-02-19T02:05:21Z

本研究提出KM-UNet,结合Kolmogorov-Arnold网络与状态空间模型,解决了传统卷积神经网络在长距离依赖建模及变换器模型计算复杂性的问题。实验结果表明,KM-UNet在医学图像分割中表现优异,提供了高效且可解释的新基线。

KM-UNet KAN Mamba UNet for Medical Image Segmentation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-05T00:00:00Z

本研究提出了一种结合衰退记忆和检索的新方法,改进混合状态空间模型(SSMs)在遥远历史记忆方面的不足。通过“扩展记忆范围”(SE-Attn)方法,模型能够有效处理更长序列,并在自然语言处理的长距离依赖任务中表现优于现有方法,具有重要应用潜力。

扩展记忆范围:在混合状态空间模型中结合衰退记忆和检索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z
重新思考自注意力机制:用于捕捉长距离依赖关系的多项式激活

本文介绍了一种新的自注意力机制“多项式激活自注意力”(SAPA),替代了变换器模型中的softmax函数。SAPA通过多项式函数计算注意力权重,更有效地捕捉长距离依赖关系。研究表明,SAPA在某些语言建模和文本分类任务中优于softmax,但并非在所有任务中都表现更佳,仍需进一步探讨其优缺点。

重新思考自注意力机制:用于捕捉长距离依赖关系的多项式激活

DEV Community
DEV Community · 2024-10-27T06:58:24Z

本文探讨了一种新型生成模型,用于基于会话的项目推荐,能够有效建模长距离依赖关系。该模型结合了突出卷积层和残差块结构,提升了推荐系统的准确性和训练效率。同时,研究还提出了多种改进推荐性能的方法,包括利用用户交互记录和大型语言模型的集成,显著提高了传统推荐模型的效果。

优化编码器仅Transformer在基于会话的推荐系统中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

本文介绍了Transformer模型,它由谷歌于2017年提出,克服了RNN和LSTM的局限。通过自注意力机制实现并行处理,解决长距离依赖问题。核心组件包括注意力机制、位置编码、多头注意力等。Transformer具有并行化、长距离依赖处理和多功能性,广泛应用于NLP等领域。

大型语言模型基础:Transformer模型

DEV Community
DEV Community · 2024-10-12T17:39:31Z

本文介绍了多种基于图和状态空间模型的创新方法,包括GraphSSM框架、GSS自回归序列建模、SEvol模型和RVG-TREE自然语言基础模型。这些方法在动态性、长距离依赖、视觉推理和运动预测等任务中表现出色,显著提高了模型的训练速度和性能。

GrootVL:在状态空间模型中,树拓扑是唯一所需

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-04T00:00:00Z

Orchid是一种新颖的架构,通过整合一种新的数据相关卷积机制,平衡了表达能力和计算效率。它在保持效率和线性可扩展性的同时,捕捉了长距离依赖和上下文学习。Orchid在较小的模型尺寸和处理更长序列长度方面优于传统的基于注意力的架构,如BERT和Vision Transformers。这代表了序列建模中高效可扩展深度学习模型的重要进展。

Orchid:灵活和数据相关的序列建模卷积

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-28T00:00:00Z

本文研究了图神经网络在自我对战强化学习中的应用。结果显示,图神经网络在处理长距离依赖和降低过拟合方面具有优势,但在辨别局部模式方面不如卷积神经网络。这表明在自我对战强化学习中,使用游戏特定结构可能会改变学习的范式。

从图像到连接:DQN 与 GNN 能否学习 Hex 的战略游戏?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-22T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码