ViT(视觉变换器)通过将图像分割为小块并利用自注意力机制,成为计算机视觉领域的重要模型。尽管缺乏先验知识,但在大数据集上表现优越。Swin Transformer在此基础上进一步改进,适应多尺度特征,提升检测和分割效果。
本研究通过集成学习和多维视频Swin Transformer模型,解决了传统孤立手语识别中视角单一的问题,提升了模型在不同视角下的鲁棒性和泛化能力,并在相关比赛中获得第三名。
本研究提出了一种新方法,利用五种Mamba模型变体和Swin Transformer模型,自动识别X射线图像中的冠状动脉狭窄。U-Mamba BOT模型的F1分数达到68.79%,比半监督方法提高了11.8%。
本研究提出ST-Tree模型,结合Swin Transformer与神经树,旨在提高多变量时间序列分类的准确性和可解释性,并可视化决策过程,推动时间序列分析的发展。
火山引擎多媒体实验室在2024年ECCV的AIM Workshop视频超分辨率质量评估赛道中获胜。团队开发了基于大模型的画质评估算法,采用Rich Quality-Aware Feature架构和Swin Transformer-B,提升了模型的泛化能力,并解决了传统算法的失真问题。
本研究提出了FastTextSpotter框架,结合Swin Transformer和Transformer编码-解码架构,提高OCR中的场景文本识别准确率和处理速度。实验结果显示该框架在多语言场景文本的检测和识别方面表现出色。
本文介绍了多种视觉 Transformer 模型及其在计算机视觉任务中的应用,包括 Swin Transformer、Shuffle Transformer 和 TVSD-Net。这些模型通过创新的注意机制和特征聚合方法,在图像分类、目标检测和阴影检测等领域表现出色,实验结果显示其性能优于现有技术。
本文介绍了多种基于Swin Transformer的模型,如DarSwin、MS-Unet和DS-TransUNet,旨在提升图像畸变矫正和医学图像分割的效果。这些模型在不同的畸变水平和医学任务中表现出色,展示了深度学习在图像处理领域的潜力。
本文介绍了多种基于Transformer的图像超分辨率模型,如Hybrid Attention Transformer、Swin Transformer和S2R。这些模型通过结合不同的注意力机制和预训练策略,显著提升了超分辨率性能,实验结果在多个基准测试中优于现有方法。
论文介绍了Swin Transformer模型,旨在提升计算机视觉任务的准确率。该模型通过构建层级特征和采用线性计算复杂度,显著提高了图像分类、目标检测和语义分割的性能。实验结果表明,Swin Transformer在多个视觉任务中超越了传统卷积神经网络。
本文探讨了利用Swin-Transformer和像素聚焦损失函数处理RAW图像中的缺失像素问题,提出了DeepISP模型用于图像信号处理,并验证了其在视觉质量和客观评估中的优越性。此外,研究还介绍了基于事件相机的运动分割和重建算法,展示了其在复杂环境中的应用效果。
本文介绍了多种视频去模糊方法,包括Flow-Guided Sparse Transformer(FGST)和模糊插值变换器(BiT),它们在不同数据集上表现优异。研究强调了运动信息的重要性,并提出了基于极坐标的Radial Strip Transformer架构,显著提升了去模糊性能。此外,Swin Transformer为骨干的SUNet模型在低光条件下展现了卓越的适应性。
该研究提出了一种基于Swin Transformer的多功能算法,能够同时进行人脸识别、面部表情识别、年龄和属性估计。通过动态多任务学习方法,算法可根据任务难度调整权重,提升性能。此外,研究探讨了轻量级卷积神经网络在多任务学习中的应用,展示了在多个数据集上的优越表现。
本文探讨了一种基于Swin Transformer的图像去噪和恢复新方法,提出了DS-TransUNet网络架构,显著提升了医学图像分割质量。研究还展示了深度学习在图像恢复中的加速效果,强调无监督训练和良好的泛化能力。
本文介绍了基于Swin Transformer的医学图像处理模型,包括重建Swin Transformer (RST)和双重Swin Transformer U-Net (DS-TransUNet),显著提升了4D MRI重建和医学图像分割效果。此外,提出了多维统一Swin Transformer (MDU-ST)用于3D病灶分割,展现出优越性能,适用于自动化肿瘤生长建模研究。
本研究设计了一个强健的盲图像质量评估方法,通过训练多个基于Swin-Transformer的模型,并使用伪标签构建大规模真实世界图像数据集,最终的跨数据集强健模型性能优于最新方法。
本文介绍了一种名为MS-UNet的新型U-Net模型,用于医学图像分割任务。该模型采用基于Swin Transformer的多尺度嵌套解码器,并引入了边界损失和去噪模块,提高了分割性能。实验证明,MS-UNet在特征学习和少量训练数据方面表现出色。
本研究提出了一种新的多维统一的 Swin Transformer 模型,用于 3D 病灶分割。该模型利用自我监督的先验任务学习病灶解剖学的潜在模式,并在同一编码器中学习相应的语义信息。该方法在内部数据集上表现出显著改进,可用于自动化的 3D 病灶分割。
本研究提出了一个强健的盲图像质量评估方法,通过训练多个基于 Swin-Transformer 的模型并生成伪标签构建了大规模真实世界图像数据集,训练了跨数据集强健模型,交叉数据集测试结果表明该方法性能优于最新方法。
本文介绍了一种名为MS-UNet的新型U-Net模型,用于医学图像分割任务。MS-UNet采用了基于Swin Transformer的多尺度嵌套解码器,并引入了边界损失和去噪模块。实验证明,MS-UNet在特征学习和分割性能方面表现出色,尤其在少量训练数据的情况下。
完成下面两步后,将自动完成登录并继续当前操作。