小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种量子退火多头注意力机制(QAMA),旨在解决经典注意力机制在大规模语言模型中的内存和能耗问题。QAMA通过二次无约束二进制优化模型实现与经典架构的兼容,显著降低能耗并保持实时响应,展示了量子计算与深度学习结合的潜力。

QAMA: Quantum Annealing Multi-Head Attention Operator with Classical Deep Learning Framework

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z

本研究提出了一种新型时空再分析模型AQ-Net,旨在改善空气质量预测中的空间泛化问题。AQ-Net结合了LSTM和多头注意力机制,利用循环编码和神经kNN技术,实现更精细的空气质量估计。实验结果表明,该模型在空气质量再分析中表现优越,能够有效捕捉城市环境动态。

Deep Spatio-Temporal Neural Network for Air Quality Reanalysis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出SeqProFT,通过LoRA微调ESM-2模型,降低了蛋白质语言模型在特定任务微调时的计算资源需求。结合多头注意力机制,提升了模型对蛋白质序列的理解,实验结果表明其在回归和分类任务中表现优异,收敛速度更快。

SeqProFT: Applying LoRA Finetuning for Sequence-Based Protein Property Prediction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-18T00:00:00Z

本文介绍了一种结合多头注意力机制和医疗知识的放射学报告生成方法,通过视觉特征提升报告质量。研究表明,该方法在多个数据集上优于现有技术,能够自动生成准确的放射学报告,减轻医生负担,并通过知识图谱优化模型性能。

KARGEN:基于大语言模型的知识增强自动放射学报告生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

本文研究了变压器模型在自然语言处理中的序列建模能力,分析了多头注意力机制的记忆能力。通过理论分析和实验,发现变压器的深度和结构对推理、泛化和上下文学习有显著影响,并提出了改进的注意机制以优化模型性能。

马尔可夫数据上的变压器:恒定深度即可

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-25T00:00:00Z

MAD-MIL是数字病理学中的图像分类模型,基于多头注意力机制和深度多实例学习。该模型在简化复杂度的同时,与其他先进模型竞争并超越多个数据集。它提升了切片表示的信息多样性、可解释性和效率,是自动化病理工作流程的有希望的解决方案。

基于多头注意力的深度多示例学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-08T00:00:00Z

该研究提出了一种新型听觉空间注意力检测模型TAnet,通过多头注意力机制提高了性能。实验证明,在KUL数据集中,TAnet表现出更好的解码性能,准确率分别为92.4%(0.1秒)、94.9%(0.25秒)、95.1%(0.3秒)、95.4%(0.4秒)和95.5%(0.5秒)。TAnet有望促进脑电控制智能助听器和声音识别系统的设计。

TAnet:一种基于脑电信号的短决策窗口听觉空间关注解码的新的时间注意力网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-11T00:00:00Z
图解 Transformer [译]

本文介绍了Transformer模型的工作原理和应用,包括编码器、解码器、自注意力层和前馈神经网络。Transformer利用注意力机制提升模型训练速度,适合并行处理。同时讨论了多头注意力机制和位置编码的作用,以及模型的训练过程和损失函数。最后,提出了相关研究和进一步探索的方向。

图解 Transformer [译]

宝玉的分享
宝玉的分享 · 2024-01-03T18:47:00Z

Transformer模型具有全连接的自注意力、没有梯度消失问题和并行计算的优势。大模型中包含多个Transformer,每个Transformer由多个Encoder Layer和Decoder Layer组成。Encoder负责提取输入序列特征,Decoder用于生成输出序列。每个Encoder Layer包含注意力层和前馈全连接层,每个Decoder Layer包含自注意力层、编码器-解码器互注意力层和前馈全连接层。Word Embedding矩阵用于将单词符号转换为词向量。多头注意力机制可以提升模型表达能力,常用的头数为8或12。

Transformer 学习笔记

陈少文的博客
陈少文的博客 · 2023-08-20T00:00:00Z

该研究提出了一种端到端模型,用于为嵌入新闻文章的图像生成标题。该模型采用多模态、多头注意力机制和转换器语言模型,解决了命名实体识别和多义词汇等问题,并在 CIDEr 评分上实现了四倍提升。

新闻图片标题生成的视觉感知上下文建模

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-16T00:00:00Z

本文介绍了从零实现transformer和通过transformer库微调LLM的方法,以及加速模型训练和调优的技巧。第一部分包括输入处理和transformer block,重点讲解了multi-head attention。第二部分介绍了Trainer类的关键方法和训练过程。第三部分还在更新中。

从零实现Transformer的简易版与强大版:从300多行到3000多行

结构之法 算法之道
结构之法 算法之道 · 2023-04-12T10:24:41Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码