小红花·文摘

本研究提出了一种改进的YOLOv5s模型，旨在提高高压传输线路关键组件的检测精度。通过优化聚类、引入注意力模块和焦点损失函数，模型达到了98.1%的mAP，显著提升了检测性能。

Improved YOLOv5s Model for Key Component Detection in Power Transmission Lines

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型（LLMs）因记忆训练数据而引发的隐私和版权问题，分析注意力模块对记忆和泛化性能的影响，并提出减少记忆效应的解决方案。

Memory Phenomena in Large Language Models through Model Attribution Analysis

BriefGPT - AI 论文速递 ·

本研究提出了一种新的视频上下文关键词注意力模块，旨在提升视频时刻检索和高亮检测的上下文捕捉能力。实验结果表明，该方法在细粒度对齐方面显著优于现有技术。

Watch Video, Capture Keywords: Context-Aware Keyword Attention for Moment Retrieval and Highlight Detection

BriefGPT - AI 论文速递 ·

本研究探讨视觉语言模型（VLMs）处理视觉信息的机制。分析表明，查询令牌有效存储全局图像信息，中层对跨模态信息流的影响显著，细粒度视觉属性和对象细节通过空间定位从图像中提取。这些发现为提升VLMs的视觉处理效率提供了新思路。

What’s in the Image? A Deep Dive into the Visual Capabilities of Vision-Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种基于扩散的伪装目标检测框架（diffCOD），通过去噪扩散过程实现伪装目标分割。该方法结合输入图像先验和注意力模块，显著提升了去噪学习效果。在多个伪装目标检测基准数据集上，该方法优于其他先进技术，尤其在纹理细分割方面表现突出。

FocusDiffuser：感知伪装目标检测中的局部差异

BriefGPT - AI 论文速递 ·

本研究利用基于Yolo的模型进行安全头盔检测，采用GhostNetv2作为特征提取网络，结合注意力模块和优化器，显著提升了模型的准确性和泛化能力。实验结果表明，该方法在安全检测中表现优异，突出了模型的效率和适应性。

GSO-YOLO: 建筑工地检测的全局稳定优化 YOLO

BriefGPT - AI 论文速递 ·

本文提出了一种基于文本引导的图像压缩多模态机器学习方法，利用文本语义信息提升压缩性能。该方法通过图像-文本注意力模块和改进的损失函数，在低比特率下实现了优良的视觉效果，性能可与先进技术媲美或超越。

可压缩且可搜索：学习图像压缩的 AI 原生多模态检索系统

BriefGPT - AI 论文速递 ·

本文介绍了SAR-Net场景感知排名网络，通过学习用户跨场景兴趣来提升个性化推荐效果。该网络结合注意力模块和去偏置专家网络，自适应提取场景特征，增强数据公平性。实验结果表明，其在用户和旅行产品推荐中表现优异。

情境适应细粒度个性化网络：根据情境语境定制用户行为表征

BriefGPT - AI 论文速递 ·

本文研究了无监督的手绘草图到照片的合成方法，通过两阶段翻译任务、自监督去噪目标和注意力模块处理抽象和风格差异，生成忠实于草图且逼真的图片，可用于图像检索和捕捉人类视觉感知。

CustomSketching：基于草图概念提取的草图图像合成和编辑

BriefGPT - AI 论文速递 ·

Transformer与注意力机制（二）：多种注意力模块

Sekyoro的博客小屋 ·

本文介绍了一种使用注意力模块的金字塔通道注意力网络（EPCA-Net）用于自动检测病理性近视。实验结果表明，EPCA-Net在病理性近视检测方面优于现有方法。作者还尝试了将预训练的自然图像模型适应为病理性近视检测的方法，并取得了有竞争力的性能。

用于病理图像少样本分类的双通道原型网络

BriefGPT - AI 论文速递 ·

LPFormer是一种新方法，通过学习适应性地编码每个链接的成对编码，以实现链接预测，并通过建模与链接预测相关的多个因素的注意力模块来模拟链接之间存在的成对编码。实验证明，LPFormer在许多数据集上能够达到最先进的性能同时保持效率。

自适应对编码用于链接预测

BriefGPT - AI 论文速递 ·

该文介绍了一种基于数据驱动知识融合的深度多实例学习算法（DKMIL），使用知识融合模块和两级注意力模块提高分类效果。实验结果证明了该算法的可扩展性和有效性。

有限数据可用情况下深度实例生成框架在 MILP 求解器中的应用

BriefGPT - AI 论文速递 ·

该文介绍了COST框架，使用三个分支的transformers和交叉粒度的注意力模块对视觉-语言交互进行建模和对齐，以获得准确的字幕预测。实验证明，COST方法在视频字幕领域中表现优于现有方法。

本文介绍了一种新的任务，即背景感知的文本到图像生成（BAT2I），通过生成的内容与给定的背景图像相匹配。作者提出了一个包含两个关键组件的网络，即位置检测网络（PDN）和协调网络（HN），用于BAT2I。通过多个GAN和注意力模块的重构生成网络，以更好地适应用户的偏好。此外，作者还将BATINet应用于文本引导的图像操作，解决了对象形状操作的最具挑战性的任务。通过在CUB数据集上的定性和定量评估，作者证明了该模型优于其他现有方法。

BATINet: 背景感知文本到图像合成与操作网络

BriefGPT - AI 论文速递 ·

Improved YOLOv5s Model for Key Component Detection in Power Transmission Lines

Memory Phenomena in Large Language Models through Model Attribution Analysis

Watch Video, Capture Keywords: Context-Aware Keyword Attention for Moment Retrieval and Highlight Detection

What’s in the Image? A Deep Dive into the Visual Capabilities of Vision-Language Models

FocusDiffuser：感知伪装目标检测中的局部差异

GSO-YOLO: 建筑工地检测的全局稳定优化 YOLO

可压缩且可搜索：学习图像压缩的 AI 原生多模态检索系统

情境适应细粒度个性化网络：根据情境语境定制用户行为表征

CustomSketching：基于草图概念提取的草图图像合成和编辑

Transformer与注意力机制（二）：多种注意力模块

用于病理图像少样本分类的双通道原型网络

自适应对编码用于链接预测

有限数据可用情况下深度实例生成框架在 MILP 求解器中的应用

协作三流变压器用于视频字幕生成

BATINet: 背景感知文本到图像合成与操作网络