小红花·文摘

本研究提出了一种量子退火多头注意力机制（QAMA），旨在解决经典注意力机制在大规模语言模型中的内存和能耗问题。QAMA通过二次无约束二进制优化模型实现与经典架构的兼容，显著降低能耗并保持实时响应，展示了量子计算与深度学习结合的潜力。

QAMA: Quantum Annealing Multi-Head Attention Operator with Classical Deep Learning Framework

BriefGPT - AI 论文速递 ·

本研究提出了一种新型时空再分析模型AQ-Net，旨在改善空气质量预测中的空间泛化问题。AQ-Net结合了LSTM和多头注意力机制，利用循环编码和神经kNN技术，实现更精细的空气质量估计。实验结果表明，该模型在空气质量再分析中表现优越，能够有效捕捉城市环境动态。

Deep Spatio-Temporal Neural Network for Air Quality Reanalysis

BriefGPT - AI 论文速递 ·

本研究提出SeqProFT，通过LoRA微调ESM-2模型，降低了蛋白质语言模型在特定任务微调时的计算资源需求。结合多头注意力机制，提升了模型对蛋白质序列的理解，实验结果表明其在回归和分类任务中表现优异，收敛速度更快。

SeqProFT: Applying LoRA Finetuning for Sequence-Based Protein Property Prediction

BriefGPT - AI 论文速递 ·

本文介绍了一种结合多头注意力机制和医疗知识的放射学报告生成方法，通过视觉特征提升报告质量。研究表明，该方法在多个数据集上优于现有技术，能够自动生成准确的放射学报告，减轻医生负担，并通过知识图谱优化模型性能。

KARGEN：基于大语言模型的知识增强自动放射学报告生成

BriefGPT - AI 论文速递 ·

本文研究了变压器模型在自然语言处理中的序列建模能力，分析了多头注意力机制的记忆能力。通过理论分析和实验，发现变压器的深度和结构对推理、泛化和上下文学习有显著影响，并提出了改进的注意机制以优化模型性能。

马尔可夫数据上的变压器：恒定深度即可

BriefGPT - AI 论文速递 ·

该研究提出了一种新型听觉空间注意力检测模型TAnet，通过多头注意力机制提高了性能。实验证明，在KUL数据集中，TAnet表现出更好的解码性能，准确率分别为92.4%（0.1秒）、94.9%（0.25秒）、95.1%（0.3秒）、95.4%（0.4秒）和95.5%（0.5秒）。TAnet有望促进脑电控制智能助听器和声音识别系统的设计。

TAnet：一种基于脑电信号的短决策窗口听觉空间关注解码的新的时间注意力网络

BriefGPT - AI 论文速递 ·

Transformer模型具有全连接的自注意力、没有梯度消失问题和并行计算的优势。大模型中包含多个Transformer，每个Transformer由多个Encoder Layer和Decoder Layer组成。Encoder负责提取输入序列特征，Decoder用于生成输出序列。每个Encoder Layer包含注意力层和前馈全连接层，每个Decoder Layer包含自注意力层、编码器-解码器互注意力层和前馈全连接层。Word Embedding矩阵用于将单词符号转换为词向量。多头注意力机制可以提升模型表达能力，常用的头数为8或12。

QAMA: Quantum Annealing Multi-Head Attention Operator with Classical Deep Learning Framework

Deep Spatio-Temporal Neural Network for Air Quality Reanalysis

SeqProFT: Applying LoRA Finetuning for Sequence-Based Protein Property Prediction

KARGEN：基于大语言模型的知识增强自动放射学报告生成

马尔可夫数据上的变压器：恒定深度即可

TAnet：一种基于脑电信号的短决策窗口听觉空间关注解码的新的时间注意力网络

图解 Transformer [译]

Transformer 学习笔记

新闻图片标题生成的视觉感知上下文建模

从零实现Transformer的简易版与强大版：从300多行到3000多行