本研究提出了一种改进的YOLOv5s模型,旨在提高高压传输线路关键组件的检测精度。通过优化聚类、引入注意力模块和焦点损失函数,模型达到了98.1%的mAP,显著提升了检测性能。
本研究探讨大型语言模型(LLMs)因记忆训练数据而引发的隐私和版权问题,分析注意力模块对记忆和泛化性能的影响,并提出减少记忆效应的解决方案。
本研究提出了一种新的视频上下文关键词注意力模块,旨在提升视频时刻检索和高亮检测的上下文捕捉能力。实验结果表明,该方法在细粒度对齐方面显著优于现有技术。
本研究探讨视觉语言模型(VLMs)处理视觉信息的机制。分析表明,查询令牌有效存储全局图像信息,中层对跨模态信息流的影响显著,细粒度视觉属性和对象细节通过空间定位从图像中提取。这些发现为提升VLMs的视觉处理效率提供了新思路。
本研究提出了一种基于扩散的伪装目标检测框架(diffCOD),通过去噪扩散过程实现伪装目标分割。该方法结合输入图像先验和注意力模块,显著提升了去噪学习效果。在多个伪装目标检测基准数据集上,该方法优于其他先进技术,尤其在纹理细分割方面表现突出。
本研究利用基于Yolo的模型进行安全头盔检测,采用GhostNetv2作为特征提取网络,结合注意力模块和优化器,显著提升了模型的准确性和泛化能力。实验结果表明,该方法在安全检测中表现优异,突出了模型的效率和适应性。
本文提出了一种基于文本引导的图像压缩多模态机器学习方法,利用文本语义信息提升压缩性能。该方法通过图像-文本注意力模块和改进的损失函数,在低比特率下实现了优良的视觉效果,性能可与先进技术媲美或超越。
本文介绍了SAR-Net场景感知排名网络,通过学习用户跨场景兴趣来提升个性化推荐效果。该网络结合注意力模块和去偏置专家网络,自适应提取场景特征,增强数据公平性。实验结果表明,其在用户和旅行产品推荐中表现优异。
本文研究了无监督的手绘草图到照片的合成方法,通过两阶段翻译任务、自监督去噪目标和注意力模块处理抽象和风格差异,生成忠实于草图且逼真的图片,可用于图像检索和捕捉人类视觉感知。
该文章介绍了不同类型的注意力模块及其代码,包括SENet、BAM、DANet、CBAM、Non-Local、SKNet、Criss-Cross Attention、Coordinate Attention和CA。这些模块常用于多尺度网络。
本文介绍了一种使用注意力模块的金字塔通道注意力网络(EPCA-Net)用于自动检测病理性近视。实验结果表明,EPCA-Net在病理性近视检测方面优于现有方法。作者还尝试了将预训练的自然图像模型适应为病理性近视检测的方法,并取得了有竞争力的性能。
LPFormer是一种新方法,通过学习适应性地编码每个链接的成对编码,以实现链接预测,并通过建模与链接预测相关的多个因素的注意力模块来模拟链接之间存在的成对编码。实验证明,LPFormer在许多数据集上能够达到最先进的性能同时保持效率。
该文介绍了一种基于数据驱动知识融合的深度多实例学习算法(DKMIL),使用知识融合模块和两级注意力模块提高分类效果。实验结果证明了该算法的可扩展性和有效性。
该文介绍了COST框架,使用三个分支的transformers和交叉粒度的注意力模块对视觉-语言交互进行建模和对齐,以获得准确的字幕预测。实验证明,COST方法在视频字幕领域中表现优于现有方法。
本文介绍了一种新的任务,即背景感知的文本到图像生成(BAT2I),通过生成的内容与给定的背景图像相匹配。作者提出了一个包含两个关键组件的网络,即位置检测网络(PDN)和协调网络(HN),用于BAT2I。通过多个GAN和注意力模块的重构生成网络,以更好地适应用户的偏好。此外,作者还将BATINet应用于文本引导的图像操作,解决了对象形状操作的最具挑战性的任务。通过在CUB数据集上的定性和定量评估,作者证明了该模型优于其他现有方法。
完成下面两步后,将自动完成登录并继续当前操作。