小红花·文摘

本研究探讨了变压器模型的两种学习模式：权重内学习（IWL）和上下文学习（ICL）。结果表明，环境的可预测性影响这两种模式的平衡。在高稳定性环境中，IWL更有效，而在低稳定性环境中，ICL更具优势。这为学习模式的转换和训练方法的改进提供了新见解。

Predictability Shapes Adaptation: An Evolutionary Perspective on Learning Modes in Transformers

BriefGPT - AI 论文速递 ·

本研究探讨了无状态架构中的冷启动问题，提出了一种基于变压器模型的方法，成功将冷启动时间降低了79%。

Research on Mitigating Cold Start Issues in Stateless Architectures Based on Transformer Models

BriefGPT - AI 论文速递 ·

本研究探讨了变压器模型在短序列训练后对长序列泛化不良的问题。通过分析消失方差，证明了长序列导致多头注意力模块输出方差降低。实验结果表明，在注意力输出后应用层归一化能显著改善长度泛化效果，减少分布偏移。

On Vanishing Variance in Transformer Length Generalization

BriefGPT - AI 论文速递 ·

本研究提出了一种基于变压器模型的方法，显著改善了低资源语言罗马乌尔都语与乌尔都语之间的音译效果，超越了RNN方法，验证了多语种迁移学习的有效性。

低资源罗马乌尔都语与乌尔都语的音译：基于变压器模型的方法

BriefGPT - AI 论文速递 ·

本文提出了一种新框架，将变压器模型中的残差流视为逐层演变的动力系统，研究大型人工智能模型的内部机制，揭示了不同层次间残差流单元的强连续性，为理解现代神经网络提供了基础。

Transformer Dynamics: Application of Neuroscientific Approaches in the Interpretability of Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了AdaSplash方法，旨在解决变压器模型中softmax注意力机制在长上下文任务中的计算成本问题，通过结合GPU优化和自适应稀疏性，显著提高了运行时间和内存效率。

AdaSplash: Adaptive Sparse Flash Attention

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法——层集成记忆（LIMe），旨在解决标准变压器模型因仅使用前一层表示而导致的性能下降问题。通过访问早期层的隐藏状态，LIMe显著提升了多种架构和任务的性能，并指明了未来研究的方向。

You Are Not Fully Utilizing the Representation Capacity of Transformers

BriefGPT - AI 论文速递 ·

本研究提出了一种Top-Theta注意力方法，通过补偿阈值有效剪枝不重要的注意力元素，从而降低变压器模型的计算复杂性。在生成解码阶段，该方法将V缓存行数减少了3倍，在预填充阶段则降低了10倍的注意力元素数量，同时保持了模型的准确度。

Top-Theta Attention: Sparsifying Transformers through Compensated Thresholding

BriefGPT - AI 论文速递 ·

分组查询注意力机制旨在降低变压器模型注意力层的内存IO压力。通过共享键和值张量，分组查询的算术强度高于传统注意力，尤其在解码阶段表现更佳。增大组大小可在不显著影响模型准确性的情况下，优化注意力层性能。

分组查询注意力性能理论分析

Lei Mao's Log Book ·

本文介绍了Samba ASR，这是首个基于Mamba架构的先进自动语音识别模型，克服了变压器模型在长距离依赖处理上的局限，显著提高了语音识别的准确性和效率。

基于结构状态空间模型的Samba ASR先进语音识别

BriefGPT - AI 论文速递 ·

本研究探讨了变压器模型在迷宫任务中形成的因果世界模型，利用稀疏自编码器和注意力模式分析，揭示了模型构建及其因果作用，表明模型能够超越输入特征，增强对自发结构的理解。

使用因果世界模型的变压器在迷宫求解任务中的应用

BriefGPT - AI 论文速递 ·

本研究探讨了变压器模型在事实回忆中的潜力与局限，提出了一种创新的浅层变压器方法，证明其存储容量与参数呈线性关系，并在合成任务中实现了100%的准确率，具有重要意义。

通过联想记忆理解变压器中的事实回忆

BriefGPT - AI 论文速递 ·

本研究探讨了变压器模型在时间序列预测中的低效，发现其泛化能力不如简单的线性残差模型。提出了“非对称学习”理论，阐明了注意力网络在处理不一致数据时的局限性，为改进变压器架构提供了理论基础。

Curse of Attention: A Kernel-Based Perspective on the Generalization Failures of Transformers in Time Series Forecasting and Beyond

BriefGPT - AI 论文速递 ·

本研究比较了变压器模型在时间序列分析中的时间表示，探讨了固定与学习的时间表示。结果表明，先验知识编码存在挑战，建议未来研究加强人机协作，以提升模型的鲁棒性和可信度。

Predictability Shapes Adaptation: An Evolutionary Perspective on Learning Modes in Transformers

Research on Mitigating Cold Start Issues in Stateless Architectures Based on Transformer Models

On Vanishing Variance in Transformer Length Generalization

低资源罗马乌尔都语与乌尔都语的音译：基于变压器模型的方法

Transformer Dynamics: Application of Neuroscientific Approaches in the Interpretability of Large Language Models

AdaSplash: Adaptive Sparse Flash Attention

You Are Not Fully Utilizing the Representation Capacity of Transformers

Top-Theta Attention: Sparsifying Transformers through Compensated Thresholding

分组查询注意力性能理论分析

基于结构状态空间模型的Samba ASR先进语音识别

使用因果世界模型的变压器在迷宫求解任务中的应用

通过联想记忆理解变压器中的事实回忆

Curse of Attention: A Kernel-Based Perspective on the Generalization Failures of Transformers in Time Series Forecasting and Beyond

Comparing Prior and Learned Time Representations in Transformer Models

自动化专辑排序

可证明的变压器利用多概念词义进行高效的上下文学习

通过功能叙述实现时间序列的可推广自回归建模

InAttention：变压器的线性上下文扩展

利用迁移学习和变压器模型的高级阿拉伯字母手语识别

利用LEVERWORLDS探索语言模型的学习能力