小红花·文摘

最后一遍学习Transformer

plus studio ·

变换器的思维方式：驱动语言模型运作的信息流

KDnuggets ·

标记的旅程：变换器内部究竟发生了什么

MachineLearningMastery.com ·

深入理解大模型 1：Transformer，大模型的基石

木鸟杂记 ·

多头注意力与分组查询注意力的温和介绍

MachineLearningMastery.com ·

注意力可能是我们所需的一切……但为什么？

MachineLearningMastery.com ·

变压器是一种深度学习架构，通过编码器和解码器结构及多头注意力机制，克服了传统自然语言处理模型的局限性，有效捕捉长距离依赖关系。它在自然语言处理和计算机视觉领域取得了重大突破，推动了GPT、BERT等大型语言模型的发展。

变压器到底是什么？

KDnuggets ·

DeepSeek-V3 开源！高效混合专家语言模型 | 开源日报 No.563

开源服务指南 ·

本研究探讨了变压器模型在短序列训练后对长序列泛化不良的问题。通过分析消失方差，证明了长序列导致多头注意力模块输出方差降低。实验结果表明，在注意力输出后应用层归一化能显著改善长度泛化效果，减少分布偏移。

On Vanishing Variance in Transformer Length Generalization

BriefGPT - AI 论文速递 ·

本研究提出了一种新模型，通过语言无关的数据增强和多头注意力加权嵌入，解决低资源班图语言文本分类中的数据短缺问题，提升分类性能。

Multi-Head Attention Guided Low-Resource Sentiment Classification Embedding Model

BriefGPT - AI 论文速递 ·

本文提出了一种名为MHA2MLA的数据高效微调方法，旨在降低深度学习模型中多头注意力推理的成本。研究表明，该方法能够使用0.3%到0.6%的数据恢复性能，同时显著降低推理成本并压缩KV缓存。

Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLM

BriefGPT - AI 论文速递 ·

你是否想过人工智能是如何像你一样“看”的？初学者的注意力指南

DEV Community ·

本研究提出了一种新方法——多头注意力特征融合（MHAFF），结合卷积神经网络与Transformer的优势，牛只识别准确率分别达到99.88%和99.52%。

Multi-Head Attention Feature Fusion: Combining CNN and Transformer for Cattle Recognition

BriefGPT - AI 论文速递 ·

本研究提出了一种利用面部深度图增强面部操纵检测鲁棒性的方法。通过面部深度图变换器和多头深度注意力机制，有效捕捉操纵导致的局部深度异常，实验结果表明该方法在检测中具有显著优势。

Exploring Depth Information for Detecting Manipulated Face Videos

BriefGPT - AI 论文速递 ·

本研究提出了一种新型变压器架构MemoryFormer，通过使用内存查找表替代全连接层的线性投影，降低了大型语言模型的计算复杂度，优化了多头注意力操作，实现了效率与性能的新平衡。

MemoryFormer: Minimizing Transformer Computation by Removing Fully Connected Layers

BriefGPT - AI 论文速递 ·

内窥镜在胃肠道异常识别中至关重要。本文提出一种轻量级深度学习模型，结合知识蒸馏和多头注意力机制，适用于资源有限的环境。通过KVASIR-V2和Hyper-KVASIR数据集验证，表现出良好性能。

将深度特征提取与混合ResNet-DenseNet模型结合用于内窥镜图像中的多类异常检测

BriefGPT - AI 论文速递 ·

本研究提出TabSeq框架，通过聚类优化特征排序，结合多头注意力机制和去噪自编码器，提升表格数据深度学习性能。

TabSeq：一种通过序列排序实现对表格数据的深度学习框架

BriefGPT - AI 论文速递 ·

本研究提出一种新架构，将语音和文本嵌入结合，利用双重多头注意力机制提升对话策略。在嘈杂环境中，音频嵌入策略比仅文本策略提升9.8%用户评分，显示音频信息的重要性。

利用音频改善对话策略

BriefGPT - AI 论文速递 ·

研究提出了一种新的头注意力混合（MoH）架构，解决多头注意力机制的效率问题。MoH允许每个token选择合适的注意力头，提高推理效率且保持精度。实验显示，MoH在使用50%-90%的注意力头时，仍能超越传统多头注意力，展现了其在高效注意力模型开发中的潜力。

MoH：多头注意力作为头注意力混合

BriefGPT - AI 论文速递 ·

深度学习中的自注意力和多头注意力解析

DEV Community ·