小红花·文摘

变压器模型如何在语言处理中的工作原理

freeCodeCamp.org ·

评估代码生成大型语言模型中的长距离依赖处理能力

Apple Machine Learning Research ·

多头注意力与分组查询注意力的温和介绍

MachineLearningMastery.com ·

本研究提出了一种新的基于块的推理方法，以提高长上下文递归大型语言模型的性能。实验结果显示，该方法在LongBench v2基准测试中显著提升了多种模型的表现，质疑了递归模型处理长距离依赖关系的有效性。

Overflow Prevention Enhances Long-Context Recurrent LLMs

BriefGPT - AI 论文速递 ·

Multi-Token突破注意力机制瓶颈，Meta发明了一种很新的Transformer

机器之心 ·

本研究提出了GLADMamba框架，解决了无监督图级异常检测中的长距离依赖和光谱信息忽视问题。通过选择性状态空间模型，GLADMamba在12个真实数据集上显著提升了检测性能。

GLADMamba: Unsupervised Graph-Level Anomaly Detection Based on Selective State Space Model

BriefGPT - AI 论文速递 ·

Transformer模型是一种基于注意力机制的序列转换架构，摒弃了循环和卷积结构，尤其在机器翻译中表现优异，训练速度快，能有效建模长距离依赖关系，创造了新的翻译最佳效果。

[译][论文] Transformer paper | Attention Is All You Need（Google，2017）

ARTHURCHIAO'S BLOG ·

你是否想过人工智能是如何像你一样“看”的？初学者的注意力指南

DEV Community ·

本研究提出KM-UNet，结合Kolmogorov-Arnold网络与状态空间模型，解决了传统卷积神经网络在长距离依赖建模及变换器模型计算复杂性的问题。实验结果表明，KM-UNet在医学图像分割中表现优异，提供了高效且可解释的新基线。

KM-UNet KAN Mamba UNet for Medical Image Segmentation

BriefGPT - AI 论文速递 ·

本研究提出了一种结合衰退记忆和检索的新方法，改进混合状态空间模型（SSMs）在遥远历史记忆方面的不足。通过“扩展记忆范围”（SE-Attn）方法，模型能够有效处理更长序列，并在自然语言处理的长距离依赖任务中表现优于现有方法，具有重要应用潜力。

扩展记忆范围：在混合状态空间模型中结合衰退记忆和检索

BriefGPT - AI 论文速递 ·

重新思考自注意力机制：用于捕捉长距离依赖关系的多项式激活

DEV Community ·

本文探讨了一种新型生成模型，用于基于会话的项目推荐，能够有效建模长距离依赖关系。该模型结合了突出卷积层和残差块结构，提升了推荐系统的准确性和训练效率。同时，研究还提出了多种改进推荐性能的方法，包括利用用户交互记录和大型语言模型的集成，显著提高了传统推荐模型的效果。

优化编码器仅Transformer在基于会话的推荐系统中的应用

BriefGPT - AI 论文速递 ·

本文介绍了Transformer模型，它由谷歌于2017年提出，克服了RNN和LSTM的局限。通过自注意力机制实现并行处理，解决长距离依赖问题。核心组件包括注意力机制、位置编码、多头注意力等。Transformer具有并行化、长距离依赖处理和多功能性，广泛应用于NLP等领域。

大型语言模型基础：Transformer模型

DEV Community ·

本文介绍了多种基于图和状态空间模型的创新方法，包括GraphSSM框架、GSS自回归序列建模、SEvol模型和RVG-TREE自然语言基础模型。这些方法在动态性、长距离依赖、视觉推理和运动预测等任务中表现出色，显著提高了模型的训练速度和性能。

GrootVL：在状态空间模型中，树拓扑是唯一所需

BriefGPT - AI 论文速递 ·

Orchid是一种新颖的架构，通过整合一种新的数据相关卷积机制，平衡了表达能力和计算效率。它在保持效率和线性可扩展性的同时，捕捉了长距离依赖和上下文学习。Orchid在较小的模型尺寸和处理更长序列长度方面优于传统的基于注意力的架构，如BERT和Vision Transformers。这代表了序列建模中高效可扩展深度学习模型的重要进展。

Orchid：灵活和数据相关的序列建模卷积

BriefGPT - AI 论文速递 ·

本文研究了图神经网络在自我对战强化学习中的应用。结果显示，图神经网络在处理长距离依赖和降低过拟合方面具有优势，但在辨别局部模式方面不如卷积神经网络。这表明在自我对战强化学习中，使用游戏特定结构可能会改变学习的范式。

从图像到连接：DQN 与 GNN 能否学习 Hex 的战略游戏？

BriefGPT - AI 论文速递 ·