本文介绍了构建图像描述生成模型的过程,该模型采用编码-解码架构,通过交叉注意力连接图像与文本。图像被分割成小块以生成特征,解码器生成描述。模型在Flickr8k数据集上训练,并通过随机采样提高泛化能力。尽管在简单场景中表现良好,但在复杂场景中仍存在困难。关键学习包括图像分块、交叉注意力的重要性和数据增强的影响。
本文提出了一种基于向量量化的交叉注意力近似方法,利用神经上下文偏置提升语音识别模型的转录准确性。该方法通过高效的量化检索模块,从大型偏置目录中快速筛选相关条目,实现个人实体识别中的相对错误率降低71%,同时计算时间减少20%,内存使用降低85-95%。
本研究提出了一种新训练目标,通过对语义表示施加约束,增强正样本对齐。同时,针对BERT模型的注意力沉没现象,提出交叉注意力结构,以提升CLS标签的注意力和池化质量。该方法在多个语义文本相似度任务中表现优异。
本研究解决了单层自注意力和交叉注意力机制的逼近能力不足,提出将单头注意力视为输入域划分机制,证明其能够逼近任意连续函数,并扩展至Lebesgue可积函数。
本研究提出了ProtDAT框架,解决了大型语言模型在蛋白质设计中多模态数据关系捕获不足的问题。通过多模态交叉注意力机制,ProtDAT有效整合蛋白质序列与文本信息,实验结果表明其在蛋白质序列生成方面表现优异,提升了设计的有效性与功能性。
本研究提出CALM方法,通过交叉注意力增强语言模型在金融领域的适应性,显著提升了模型在多数据集上的表现。
现有视频检索和亮点检测方法存在对齐问题,影响性能。本文提出结合显著性引导的交叉注意力机制与混合DETR架构的新方法,提升性能。使用InterVid-MR数据集预训练,在多个基准上取得先进结果,提供高效可扩展的解决方案。
本研究提出Pix2Next框架,通过结合编码-解码架构和交叉注意力机制,从RGB生成高质量近红外图像。该方法提升了特征整合能力,实现了多细节层次的真实图像生成,FID得分提高34.81%,并在目标检测任务中验证了其有效性,展示了在近红外计算机视觉应用中的潜力。
本研究提出了一种基于遮罩的三维扩散模型,通过使用遮罩建模技术训练模型,保持填充区域的时间连续性,并减少相邻帧之间的抖动。通过交叉注意力和混合推理流程,提高了视频外延任务的效果。实验证明该方法在视频外延任务中取得了最先进的结果。
我们提出了一种名为Cross-modulated Attention Transformer (CAFormer)的新方法,用于RGBT跟踪。该方法通过自注意力、交叉注意力和搜索-模板相关性计算,在一个统一的注意力模型中改善相关性权重的精度。实验结果表明,CAFormer在五个公共RGBT跟踪基准上优于同类方法。
本文介绍了一种用于处理多概念输入图像的文本本地化模型。该模型通过交叉注意力引导方法,在微调过程中建立目标概念的视觉表示与标识符令牌之间的连接。实验结果表明,该方法在图像保真度和图像文本对齐方面优于基准模型,并且能够生成与目标概念一致的交叉注意力映射。
本研究通过直接学习地面查询图像中的BEV表示,解决了跨视图地理定位中的挑战。提出了一种新的W2W-BEV方法,通过窗口匹配和交叉注意力学习稳健的BEV表示。实验结果表明,在未知方向和有限视野的条件下,W2W-BEV方法相较于先前的方法具有显著优势。
本研究提出了一种高效且紧凑的解决方案,利用EfficientViT进行视觉信息提取,并通过交叉注意力融合特征图。在CARLA仿真平台上,该解决方案仅使用37.6%的参数和8.7%的计算资源,表现出色。
该研究使用基于遮罩的三维扩散模型来提高视频外延任务的结果。通过遮罩建模技术训练模型,保持填充区域的时间连续性,并减少相邻帧之间的抖动。通过交叉注意力和混合的推理流程,进一步提高了结果。
该研究提出了一种文本本地化的文本到图像模型,通过交叉注意力引导方法建立目标概念的视觉表示与标识符令牌之间的连接。实验结果表明,该方法在图像保真度和图像文本对齐方面优于基准模型,并提高了单一概念和多概念生成的得分。该方法还能够生成与目标概念一致的交叉注意力映射。
本文介绍了CenterFormer,一种基于中心点的变换网络,使用查询嵌入聚合中心候选点的特征向量,并通过交叉注意力融合多帧特征。在Waymo Open数据集上,CenterFormer在单个模型上取得了73.7%的验证集和75.6%的测试集mAPH,明显优于以前的CNN和transformer方法。
本文提出了一种新的引导图像合成框架,通过约束优化问题解决领域偏移问题,并通过定义交叉注意力的对应关系,实现对不同绘制区域的语义控制。
本研究使用自编码器和交叉注意力增强的U-Net模型生成压缩潜在空间的图像,通过文本条件扩展和模型重新训练,提高了LDMs的创意绘画能力。使用Wikiart数据集进行新颖的绘画生成,与原模型比较表明创造力和艺术性得到了提高。
本文介绍了一种基于扩散机制的音视频语音分离模型AVDiffuSS,能够从声音混合中提取目标发言者的声音,并提出了一种基于交叉注意力的特征融合机制。该模型在语音生成中集成语音视觉对应的语音信息,在 VoxCeleb2 和 LRS3 这两个基准测试上取得了最先进的结果,生成的语音音质更好。
本文介绍了一种用于对大规模神经活动数据进行建模的训练框架和架构,利用交叉注意力和PerceiverIO主干构建神经群体活动的潜在分词,构建了一个大规模的多会话模型,为构建分析神经数据的深度学习工具提供了一种有力的新方法。
完成下面两步后,将自动完成登录并继续当前操作。