本研究探讨大型语言模型(LLMs)因记忆训练数据而引发的隐私和版权问题,分析注意力模块对记忆和泛化性能的影响,并提出减少记忆效应的解决方案。
本研究提出了一种新的视频上下文关键词注意力模块,有效解决了视频时刻检索和高亮检测中的上下文捕捉不足问题,实验结果表明其性能显著优于现有方法。
本研究探讨视觉语言模型(VLMs)处理视觉信息的机制。分析表明,查询令牌有效存储全局图像信息,中层对跨模态信息流的影响显著,细粒度视觉属性和对象细节通过空间定位从图像中提取。这些发现为提升VLMs的视觉处理效率提供了新思路。
现有OCR引擎需要独立模型进行文本检测,计算复杂。DAT模型将文本检测、布局分析和文档检测整合为一个系统,通过交互式注意力模块和提示分割模块提升复杂布局的准确性。实验显示,DAT在多种任务中表现优异。
本研究提出了一种放射治疗靶体积自动分割网络Radformer,利用视觉语言模型和注意力模块进行特征提取,性能优于其他模型。
神经机器翻译(NMT)模型中的多尺度上下文化(MSC)方法通过学习不同隐藏状态维度上的不同尺度的上下文化信息,并利用注意力模块动态地集成多尺度的上下文化信息,以解决子词标记化在复杂任务中的劣势。实验证明,MSC 在多语言和领域外的场景中明显优于子词和其他基于字节的方法。
介绍了SAR-Net场景感知排名网络,解决个性化推荐问题。利用注意力模块、线性转换层和去偏置专家网络提取场景特征,增强数据公平性和恢复偏差。在离线数据集和在线测试中表现优异。
本文研究了无监督的手绘草图到照片的合成方法,通过两阶段翻译任务、自监督去噪目标和注意力模块处理抽象和风格差异,生成忠实于草图且逼真的图片,可用于图像检索和捕捉人类视觉感知。
该文章介绍了不同类型的注意力模块及其代码,包括SENet、BAM、DANet、CBAM、Non-Local、SKNet、Criss-Cross Attention、Coordinate Attention和CA。这些模块常用于多尺度网络。
本文介绍了一种使用注意力模块的金字塔通道注意力网络(EPCA-Net)用于自动检测病理性近视。实验结果表明,EPCA-Net在病理性近视检测方面优于现有方法。作者还尝试了将预训练的自然图像模型适应为病理性近视检测的方法,并取得了有竞争力的性能。
LPFormer是一种新方法,通过学习适应性地编码每个链接的成对编码,以实现链接预测,并通过建模与链接预测相关的多个因素的注意力模块来模拟链接之间存在的成对编码。实验证明,LPFormer在许多数据集上能够达到最先进的性能同时保持效率。
该文介绍了一种基于数据驱动知识融合的深度多实例学习算法(DKMIL),使用知识融合模块和两级注意力模块提高分类效果。实验结果证明了该算法的可扩展性和有效性。
该文介绍了COST框架,使用三个分支的transformers和交叉粒度的注意力模块对视觉-语言交互进行建模和对齐,以获得准确的字幕预测。实验证明,COST方法在视频字幕领域中表现优于现有方法。
本文介绍了一种新的任务,即背景感知的文本到图像生成(BAT2I),通过生成的内容与给定的背景图像相匹配。作者提出了一个包含两个关键组件的网络,即位置检测网络(PDN)和协调网络(HN),用于BAT2I。通过多个GAN和注意力模块的重构生成网络,以更好地适应用户的偏好。此外,作者还将BATINet应用于文本引导的图像操作,解决了对象形状操作的最具挑战性的任务。通过在CUB数据集上的定性和定量评估,作者证明了该模型优于其他现有方法。
完成下面两步后,将自动完成登录并继续当前操作。