小红花·文摘

ViT（视觉变换器）通过将图像分割为小块并利用自注意力机制，成为计算机视觉领域的重要模型。尽管缺乏先验知识，但在大数据集上表现优越。Swin Transformer在此基础上进一步改进，适应多尺度特征，提升检测和分割效果。

一文通透ViT：把图片划分成一个个patch块后再做注意力计算，打破CNN在CV领域的统治地位(含Swin Transformer的详解)

结构之法算法之道 ·

本研究提出CFIS-YOLO模型，旨在解决木材缺陷检测中的高成本和主观性问题。该模型通过增强结构和新损失函数，提高了多尺度特征融合和小物体定位能力，在公共数据集上达到了77.5%的mAP，验证了其在资源受限环境中的有效性。

CFIS-YOLO: A Lightweight Multi-Scale Fusion Network for Edge-Deployable Wood Defect Detection

BriefGPT - AI 论文速递 ·

本研究提出Nes2Net架构，直接处理高维语音特征，显著提升多尺度特征提取能力，实验结果显示性能提升22%，计算成本降低87%。

Nes2Net: A Lightweight Nested Architecture for Model-Driven Voice Anti-Counterfeiting

BriefGPT - AI 论文速递 ·

本研究提出了一种基于注意力的多尺度时间融合网络，用于多模式过程中的故障诊断。该方法通过提取多尺度特征和时间注意力机制，提高了诊断准确性，实验结果表明其性能优越且模型体积小。

Attention-Based Multi-Scale Temporal Fusion Network for Uncertain Fault Diagnosis in Multimode Processes

BriefGPT - AI 论文速递 ·

本研究针对视觉复杂性建模中的可解释性问题，提出了多尺度特征以克服传统模型的局限，并引入新的SVG数据集，强调数据特性在理解视觉复杂性中的重要性。

数据中心化方法：视觉复杂性的维度及其探索

BriefGPT - AI 论文速递 ·

本研究提出了一种新型肺结节分割模型S3TU-Net，结合多维空间连接和超像素视觉变换器，利用结构化卷积块和多尺度特征融合技术，显著提升了分割性能。实验结果显示，S3TU-Net在LIDC-IDRI数据集上表现优于现有方法。

S3TU-Net: Structured Convolution and Superpixel Transformer for Lung Nodule Segmentation

BriefGPT - AI 论文速递 ·

本研究提出了VMGNet模型，旨在解决深度学习机器人抓取技术的高计算复杂度问题。该模型通过引入视觉状态空间，实现线性计算复杂度，并通过多尺度特征融合提升准确性。实验结果表明，抓取成功率达到94.4%。

VMGNet：基于VMamba的低计算复杂度机器人抓取网络，采用多尺度特征融合

BriefGPT - AI 论文速递 ·

本研究提出了一种尺度感知图注意力视觉变换器（SAG-ViT），旨在提高视觉变换器在多尺度特征表示中的效率。该模型通过优化节点嵌入，在图像分类任务中显著提升了性能。

Scale-Aware High-Fidelity Image Patching Method Combined with Graph Attention for Vision Transformers

BriefGPT - AI 论文速递 ·

本文提出了新框架MSTA3D，旨在解决3D实例分割中的过度分割问题，尤其是大物体的分割。MSTA3D结合多尺度特征、双注意力机制、箱体查询和正则化，实验结果在多个数据集上优于现有方法。

MSTA3D：多尺度双注意力用于 3D 实例分割

BriefGPT - AI 论文速递 ·

Transformer在图像超分辨率任务中表现优异，但传统方法计算复杂度高。论文提出HiT-SR策略，通过分层窗口和空间-通道相关方法，提高多尺度特征聚合效率。HiT-SR利用扩展窗口和线性复杂度方法，改善长距离依赖。实验显示，HiT-SR在性能、参数和速度上优于现有方法，速度提升约7倍。

HiT-SR：基于层级Transformer的超分辨率，计算高效且能提取长距离关系 | ECCV'24 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

该研究提出WTCL-Dehaze网络，通过结合对比损失和离散小波变换，增强图像特征表示，并利用多尺度特征提取捕捉高频细节，解决雾霾图像的颜色失真、对比度低和细节丢失问题。实验结果表明，该方法在去雾效果和鲁棒性上优于现有技术。

WTCL-去雾：通过小波变换和对比学习重新思考现实图像去雾

BriefGPT - AI 论文速递 ·

我们提出了CFAT模型用于图像超分辨率，结合三角-矩形窗口和通道全局注意力技术，能更好地捕捉长距离和多尺度特征，提升超分辨率性能。实验显示，CFAT比其他最新模型性能提升0.7分贝。

统一维度：一种线性自适应的轻量级图像超分辨率方法

BriefGPT - AI 论文速递 ·

TOPIQ是一种顶部向下的方法，通过高层语义指导图像质量评估网络集中在局部失真区域。该方法使用了CFANet网络，通过多尺度特征和自上而下的方式逐步传播多级语义信息到低级表示。CFANet可用于全参考和无参考图像质量评估，并在公开基准测试中表现出更好或有竞争力的性能。

探索图像质量评估中的丰富主观质量信息

BriefGPT - AI 论文速递 ·

TOPIQ是一种用于图像质量评估的顶部向下方法，利用多尺度特征和跨尺度注意力机制传播多级语义信息到低级表示。TOPIQ在全参考和无参考图像质量评估中表现出更好的性能。

切片最大信息系数：一种无训练的图像质量评估增强方法

BriefGPT - AI 论文速递 ·

介绍了一种新的深度神经网络训练算法，使用马尔可夫链蒙特卡罗采样迭代训练网络层，避免全局和基于梯度的优化，能够有效学习多尺度和高频特征，并生成可解释的参数分布。

随机傅立叶神经网络中的深度学习无需全局优化

BriefGPT - AI 论文速递 ·

该文章介绍了一种基于Siamese网络架构的改变检测方法，通过捕捉多尺度特征，实现对遥感图像的语义变化的编码。实验结果表明该方法在改变检测上具有优势，并获得了最先进的性能。

卷积神经网络 - Transformer 融合网络与变化检测的关联

BriefGPT - AI 论文速递 ·

本文介绍了一种基于Transformer框架的半监督方法TreeFormer，利用多尺度特征表示实现对树的数量统计和密度估计，降低了标注成本，并在实验中超越了当前半监督方法的最新水平。

S3Former：自监督高分辨率 Transformer 用于太阳能光伏建模

BriefGPT - AI 论文速递 ·

本文介绍了FCCDN算法，利用双编码器-解码器网络和非局部特征金字塔网络提取和融合多尺度特征，实现了无需语义分割标签的双时相语义分割。在建筑物变化检测数据集上达到最先进性能水平。

利用细粒度信息和噪声解耦的遥感变化检测

BriefGPT - AI 论文速递 ·

本研究提出了一种利用GLCM的多尺度特征和可微分GLCM的损失函数，并引入了自注意力层，以提高基于GANs的低剂量CT去噪算法的性能。实验结果表明，该方法相比其他损失函数表现更好，且结果在三种不同GAN架构下保持一致。

基于 GAN 的 CT 去噪的多尺度纹理损失

BriefGPT - AI 论文速递 ·

本文提出了一种新的注视模型，用于语义分割。该模型使用多尺度和上下文特征进行预测，并通过骨骼卷积神经网络框架输入不同尺度的表示。模型的位置注视分支学习到每个像素位置上的多尺度特征的软加权，并添加了一个重新校准分支来重新校准每个类别的分数图。实验结果表明，该模型在PASCAL VOC 2012和ADE20K数据集上取得了有竞争力的结果。

基于多尺度注意力的实例分割方法用于测量尺寸变化较大的晶体

BriefGPT - AI 论文速递 ·