ViT(视觉变换器)通过将图像分割为小块并利用自注意力机制,成为计算机视觉领域的重要模型。尽管缺乏先验知识,但在大数据集上表现优越。Swin Transformer在此基础上进一步改进,适应多尺度特征,提升检测和分割效果。
本研究通过集成学习和多维视频Swin Transformer模型,解决了传统孤立手语识别中视角单一的问题,提升了模型在不同视角下的鲁棒性和泛化能力,并在相关比赛中获得第三名。
本研究提出了一种新方法,利用五种Mamba模型变体和Swin Transformer模型,自动识别X射线图像中的冠状动脉狭窄。U-Mamba BOT模型的F1分数达到68.79%,比半监督方法提高了11.8%。
本研究提出ST-Tree模型,结合Swin Transformer与神经树,旨在提高多变量时间序列分类的准确性和可解释性,并可视化决策过程,推动时间序列分析的发展。
火山引擎多媒体实验室在2024年ECCV的AIM Workshop视频超分辨率质量评估赛道中获胜。团队开发了基于大模型的画质评估算法,采用Rich Quality-Aware Feature架构和Swin Transformer-B,提升了模型的泛化能力,并解决了传统算法的失真问题。
本研究提出了FastTextSpotter框架,结合Swin Transformer和Transformer编码-解码架构,提高OCR中的场景文本识别准确率和处理速度。实验结果显示该框架在多语言场景文本的检测和识别方面表现出色。
本研究提出了一种新的方法来提高医学图像处理中Swin Transformer模型的语义分割性能,通过引入新的损失函数和旋转恢复机制,在公共医学分割数据集上表现优于现有的预训练方法,具有临床应用潜力。
介绍了一种新的多维统一的 Swin Transformer (MDU-ST) 模型,用于肿瘤病灶的 3D 分割。该模型通过自我监督的先验任务和微调来学习病灶解剖学的潜在模式,并在内部数据集上表现出显著改进。可用于自动化的 3D 病灶分割,辅助放射组学和肿瘤生长建模研究。
该文章介绍了一种使用基于Transformer的架构进行LaTeX文本识别的方法,通过混合数据集训练的模型,在编码器中采用Swin Transformer,在解码器中采用RoBERTa模型。实验结果表明,该方法提高了文本识别的准确性和鲁棒性,对于清晰图像和模糊图像都能产生合理的识别结果。
本文介绍了在Auto WCEBleedGen挑战赛中使用的方法,包括使用Swin Transformer进行出血帧分类和使用RT-DETR检测无线胶囊内窥镜图像中的出血。通过图像预处理步骤,如转换颜色空间、对比度增强和抑制伪影,实现了高准确率和F1得分。验证集上的分类准确率达到了98.5%,测试集上为87.0%。
介绍了一种新的多维统一的 Swin Transformer (MDU-ST) 模型,用于肿瘤病灶的 3D 分割。该模型通过三个阶段的训练,能够适应 2D 和 3D 输入,并在同一编码器中学习语义信息。在内部数据集上的评估中,该模型表现出显著改进,可用于自动化的 3D 病灶分割和肿瘤生长建模研究。
本研究设计了一个强健的盲图像质量评估方法,通过训练多个基于Swin-Transformer的模型,并使用伪标签构建大规模真实世界图像数据集,最终的跨数据集强健模型性能优于最新方法。
本文介绍了一种名为MS-UNet的新型U-Net模型,用于医学图像分割任务。该模型采用基于Swin Transformer的多尺度嵌套解码器,并引入了边界损失和去噪模块,提高了分割性能。实验证明,MS-UNet在特征学习和少量训练数据方面表现出色。
本研究提出了一种新的多维统一的 Swin Transformer 模型,用于 3D 病灶分割。该模型利用自我监督的先验任务学习病灶解剖学的潜在模式,并在同一编码器中学习相应的语义信息。该方法在内部数据集上表现出显著改进,可用于自动化的 3D 病灶分割。
本研究提出了一个强健的盲图像质量评估方法,通过训练多个基于 Swin-Transformer 的模型并生成伪标签构建了大规模真实世界图像数据集,训练了跨数据集强健模型,交叉数据集测试结果表明该方法性能优于最新方法。
本文介绍了一种名为MS-UNet的新型U-Net模型,用于医学图像分割任务。MS-UNet采用了基于Swin Transformer的多尺度嵌套解码器,并引入了边界损失和去噪模块。实验证明,MS-UNet在特征学习和分割性能方面表现出色,尤其在少量训练数据的情况下。
Nougat是一个用于学术文档的神经光学理解模型,可以识别文本、数学公式和表格,并以Markdown格式输出。模型使用了Swin Transformer和mBART。作者构建了一个训练数据集,收集了arXiv上的文章并转换为HTML5文件,然后转换为Mathpix Markdown格式。训练时使用了作者构建的数据集以及PMC和IDL数据集。Nougat的推断速度较慢,但精度较高。与Pix2Text相比,Nougat模型较大,但支持更多功能。P2T目前只能恢复段落级别的内容,未来计划完善版面恢复的全部功能。
本文介绍了一种名为HiFormer的新方法,使用Swin Transformer模块和基于CNN的编码器设计了两种多尺度特征表示,以有效进行医学图像分割。通过Double-Level Fusion(DLF)模块,在编码器解码器结构的跳跃连接中实现了全局和局部特征的细粒度融合。实验结果表明,HiFormer在计算复杂度、定量和定性结果方面优于其他基于CNN、Transformer和混合方法。
HFUT-VUT研究团队在ACM Multimedia 2023的MultiMediate Grand Challenge 2023中的解决方案覆盖了三个子挑战。他们选择了Swin Transformer作为基线,并利用数据增广策略来提高模型的泛化能力。结果显示,他们的解决方案在身体行为识别和眼神接触检测方面取得了最佳结果,并在下一个发言者的预测方面也有可比较的结果。
本文介绍了空间跨尺度卷积(SCSC)模块,验证了其在改善CNN和Transformers方面的有效性。SCSC引入了高效的空间跨尺度编码器和空间嵌入模块,以捕捉各种特征。在人脸识别任务中,使用SCSC的FaceResNet在减少68%的FLOPs和79%的参数的情况下,性能提高了2.7%。在ImageNet分类任务中,使用SCSC的Swin Transformer在减少22%的FLOPs的情况下,性能更好。使用SCSC嵌入的传统网络(如ResNet)与Swin Transformer的性能相当。
完成下面两步后,将自动完成登录并继续当前操作。