小红花·文摘

ViT（视觉变换器）通过将图像分割为小块并利用自注意力机制，成为计算机视觉领域的重要模型。尽管缺乏先验知识，但在大数据集上表现优越。Swin Transformer在此基础上进一步改进，适应多尺度特征，提升检测和分割效果。

一文通透ViT：把图片划分成一个个patch块后再做注意力计算，打破CNN在CV领域的统治地位(含Swin Transformer的详解)

结构之法算法之道 ·

本研究通过集成学习和多维视频Swin Transformer模型，解决了传统孤立手语识别中视角单一的问题，提升了模型在不同视角下的鲁棒性和泛化能力，并在相关比赛中获得第三名。

Sign Language Recognition from Multiple Views Using Ensemble Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，利用五种Mamba模型变体和Swin Transformer模型，自动识别X射线图像中的冠状动脉狭窄。U-Mamba BOT模型的F1分数达到68.79%，比半监督方法提高了11.8%。

Segmentation of Coronary Artery Stenosis in X-ray Angiography Based on Mamba Models

BriefGPT - AI 论文速递 ·

本研究提出ST-Tree模型，结合Swin Transformer与神经树，旨在提高多变量时间序列分类的准确性和可解释性，并可视化决策过程，推动时间序列分析的发展。

火山引擎夺得AIM2024大赛超分质量评估赛道冠军

实时互动网 ·

本研究提出了FastTextSpotter框架，结合Swin Transformer和Transformer编码-解码架构，提高OCR中的场景文本识别准确率和处理速度。实验结果显示该框架在多语言场景文本的检测和识别方面表现出色。

FastTextSpotter：一种高效的多语言场景文本检测变换器

BriefGPT - AI 论文速递 ·

本研究提出了一种新的方法来提高医学图像处理中Swin Transformer模型的语义分割性能，通过引入新的损失函数和旋转恢复机制，在公共医学分割数据集上表现优于现有的预训练方法，具有临床应用潜力。

通过令牌级表示学习增强医学图像的3D变压器分割模型

BriefGPT - AI 论文速递 ·

介绍了一种新的多维统一的 Swin Transformer (MDU-ST) 模型，用于肿瘤病灶的 3D 分割。该模型通过自我监督的先验任务和微调来学习病灶解剖学的潜在模式，并在内部数据集上表现出显著改进。可用于自动化的 3D 病灶分割，辅助放射组学和肿瘤生长建模研究。

SegStitch: 多维 Transformer 用于强大且高效的医学图像分割

BriefGPT - AI 论文速递 ·

该文章介绍了一种使用基于Transformer的架构进行LaTeX文本识别的方法，通过混合数据集训练的模型，在编码器中采用Swin Transformer，在解码器中采用RoBERTa模型。实验结果表明，该方法提高了文本识别的准确性和鲁棒性，对于清晰图像和模糊图像都能产生合理的识别结果。

不应仅依赖自然语言训练的明确识别

BriefGPT - AI 论文速递 ·

本文介绍了在Auto WCEBleedGen挑战赛中使用的方法，包括使用Swin Transformer进行出血帧分类和使用RT-DETR检测无线胶囊内窥镜图像中的出血。通过图像预处理步骤，如转换颜色空间、对比度增强和抑制伪影，实现了高准确率和F1得分。验证集上的分类准确率达到了98.5%，测试集上为87.0%。

无线胶囊内镜基于 Swin Transformer 和 RT-DETR 的出血帧分类与检测的稳健流程

BriefGPT - AI 论文速递 ·

介绍了一种新的多维统一的 Swin Transformer (MDU-ST) 模型，用于肿瘤病灶的 3D 分割。该模型通过三个阶段的训练，能够适应 2D 和 3D 输入，并在同一编码器中学习语义信息。在内部数据集上的评估中，该模型表现出显著改进，可用于自动化的 3D 病灶分割和肿瘤生长建模研究。

密集残差 Swin Transformer 用于连续无深度限制超声成像

BriefGPT - AI 论文速递 ·

本研究设计了一个强健的盲图像质量评估方法，通过训练多个基于Swin-Transformer的模型，并使用伪标签构建大规模真实世界图像数据集，最终的跨数据集强健模型性能优于最新方法。

高分辨率图像质量数据库

BriefGPT - AI 论文速递 ·

本文介绍了一种名为MS-UNet的新型U-Net模型，用于医学图像分割任务。该模型采用基于Swin Transformer的多尺度嵌套解码器，并引入了边界损失和去噪模块，提高了分割性能。实验证明，MS-UNet在特征学习和少量训练数据方面表现出色。

U-Net v2：重新思考 U-Net 的跳跃连接在医学图像分割中的应用

BriefGPT - AI 论文速递 ·

本研究提出了一种新的多维统一的 Swin Transformer 模型，用于 3D 病灶分割。该模型利用自我监督的先验任务学习病灶解剖学的潜在模式，并在同一编码器中学习相应的语义信息。该方法在内部数据集上表现出显著改进，可用于自动化的 3D 病灶分割。

RT-SRTS：单次 X 射线投影中的角度无关实时三维重建和肿瘤分割

BriefGPT - AI 论文速递 ·

本研究提出了一个强健的盲图像质量评估方法，通过训练多个基于 Swin-Transformer 的模型并生成伪标签构建了大规模真实世界图像数据集，训练了跨数据集强健模型，交叉数据集测试结果表明该方法性能优于最新方法。

跨数据集鲁棒的盲目现实世界图像质量评估方法

BriefGPT - AI 论文速递 ·

本文介绍了一种名为MS-UNet的新型U-Net模型，用于医学图像分割任务。MS-UNet采用了基于Swin Transformer的多尺度嵌套解码器，并引入了边界损失和去噪模块。实验证明，MS-UNet在特征学习和分割性能方面表现出色，尤其在少量训练数据的情况下。

MS-UNet-v2: 医学图像分割的自适应降噪方法与小数据训练策略

BriefGPT - AI 论文速递 ·

Meta的版面恢复大模型：Nougat

NotionNext BLOG ·

本文介绍了一种名为HiFormer的新方法，使用Swin Transformer模块和基于CNN的编码器设计了两种多尺度特征表示，以有效进行医学图像分割。通过Double-Level Fusion（DLF）模块，在编码器解码器结构的跳跃连接中实现了全局和局部特征的细粒度融合。实验结果表明，HiFormer在计算复杂度、定量和定性结果方面优于其他基于CNN、Transformer和混合方法。

基于小波的高频增强在 Transformers 中解锁细粒度细节

BriefGPT - AI 论文速递 ·

HFUT-VUT研究团队在ACM Multimedia 2023的MultiMediate Grand Challenge 2023中的解决方案覆盖了三个子挑战。他们选择了Swin Transformer作为基线，并利用数据增广策略来提高模型的泛化能力。结果显示，他们的解决方案在身体行为识别和眼神接触检测方面取得了最佳结果，并在下一个发言者的预测方面也有可比较的结果。

本文介绍了空间跨尺度卷积（SCSC）模块，验证了其在改善CNN和Transformers方面的有效性。SCSC引入了高效的空间跨尺度编码器和空间嵌入模块，以捕捉各种特征。在人脸识别任务中，使用SCSC的FaceResNet在减少68%的FLOPs和79%的参数的情况下，性能提高了2.7%。在ImageNet分类任务中，使用SCSC的Swin Transformer在减少22%的FLOPs的情况下，性能更好。使用SCSC嵌入的传统网络（如ResNet）与Swin Transformer的性能相当。

SCSC：强化卷积神经网络和 Transformer 的空间跨尺度卷积模块

BriefGPT - AI 论文速递 ·

一文通透ViT：把图片划分成一个个patch块后再做注意力计算，打破CNN在CV领域的统治地位(含Swin Transformer的详解)

Sign Language Recognition from Multiple Views Using Ensemble Learning

Segmentation of Coronary Artery Stenosis in X-ray Angiography Based on Mamba Models

具有可解释性的多变量时间序列分类ST-Tree

火山引擎夺得AIM2024大赛超分质量评估赛道冠军

FastTextSpotter：一种高效的多语言场景文本检测变换器

通过令牌级表示学习增强医学图像的3D变压器分割模型

SegStitch: 多维 Transformer 用于强大且高效的医学图像分割

不应仅依赖自然语言训练的明确识别

无线胶囊内镜基于 Swin Transformer 和 RT-DETR 的出血帧分类与检测的稳健流程

密集残差 Swin Transformer 用于连续无深度限制超声成像

高分辨率图像质量数据库

U-Net v2：重新思考 U-Net 的跳跃连接在医学图像分割中的应用

RT-SRTS：单次 X 射线投影中的角度无关实时三维重建和肿瘤分割

跨数据集鲁棒的盲目现实世界图像质量评估方法

MS-UNet-v2: 医学图像分割的自适应降噪方法与小数据训练策略

Meta的版面恢复大模型：Nougat

基于小波的高频增强在 Transformers 中解锁细粒度细节

多媒体 '23: 社交互动中的参与度估计和身体行为识别

SCSC：强化卷积神经网络和 Transformer 的空间跨尺度卷积模块