本研究提出了多种基于Vision Transformer(ViT)的模型优化方法,如NViT、UP-ViTs和Edge-MoE,旨在提高模型准确性、降低计算成本,并实现高效的边缘设备部署。这些方法通过结构裁剪、知识蒸馏和协同推理等技术,显著提升了模型性能和运行速度,适应资源受限的环境。
本论文研究了基于Vision Transformer(ViT)的目标检测模型YOLOS的可迁移性。实验结果显示,YOLOS以纯sequence-to-sequence的方式完成目标检测,附加的归纳偏置最小。与DETR相比,YOLOS选择了仅编码器的Transformer架构,并使用预训练的ViT表达。实验结果表明,YOLOS在复杂的目标检测任务上具有竞争力的性能。
该研究提出了多种新方法来解决少样本物体计数问题,包括基于相似性比较和特征增强的模块、类不可知计数框架以及预训练的Vision Transformer解决方案。这些方法在多个数据集上表现优异,显著提高了目标计数的精度和效率,推动了零样本学习的发展。
该论文提出了 UP-ViTs 统一结构修剪框架,旨在压缩 Vision Transformer 模型体积并提高准确性。通过稀疏输入令牌和软剪枝,显著降低计算成本,适用于移动设备和 FPGA。同时,研究提出了多种高效的压缩技术,如 HeatViT 和 NViT,优化了模型性能和资源利用,确保在保持精度的同时实现更高的计算效率。
本文研究了医学影像学中Vision Transformer (ViT)的可解释性,提出了IA-ViT模型和注意力引导可视化方法,显著提高了解释的准确性和鲁棒性,并探讨了不同解释性方法的分类及应用,强调了未来的研究方向。
本文研究了利用卷积神经网络(CNN)和胸部X射线图像快速诊断COVID-19的有效性。结果表明,三层CNN模型的筛查精度可达96%。在十折交叉验证中,102例COVID-19病例全部正确分类,AUC为0.997。此外,研究提出了基于Vision Transformer的创新框架,显示出优秀的检测性能,强调了胸部X线作为快速低成本筛查工具的重要性。
本文提出了一种基于 F-measure 值的正反馈方法,显著提高了显著性预测模型的准确性。该方法无需复杂的解码器设计,适应性强,实验结果显示在五个公开数据集上超越了12种最新方法。此外,研究探讨了多种基于 Vision Transformer 的网络和新型特征学习框架,在显著目标检测任务中表现优异。
本文探讨了深度学习模型在乳腺癌浸润性导管癌(IDC)诊断中的应用。研究显示,深度残差卷积网络的预测准确率高达99.29%,迁移学习和支持向量机分类器也显著提高了分类准确性。使用Vision Transformer模型的研究表明,其准确性和效率优于传统卷积神经网络,达到了95.15%的准确率。
本研究探讨了细粒度分类在物种鉴定中的应用,比较了不同深度学习模型的表现。混合模型在准确性上优于其他模型,而完全转换器模型在推断速度上更快。研究还提出了多阶段的 Vision Transformer 框架和新的分类方法,展示了其在生物多样性研究中的潜力。
本文提出了一种名为ViT-ReciproCAM的视觉解释方法,旨在提高Vision Transformer(ViT)模型的可解释性。该方法通过激活令牌与网络预测的相关性生成显著性地图,表现优于现有方法。研究表明,ViT-ReciproCAM在理解和调试ViT模型方面具有良好的定位性能,尤其在医学影像学领域展现了潜力。
本文探讨了一种生成通用对抗性攻击的方法,旨在干扰语义分割模型的掩码预测。研究提出了一种简单有效的攻击策略,重点关注图像编码器,并通过正则化损失增强特征传递性。此外,利用无监督学习和基于Vision Transformer的模型,构建了高效的图像分割框架,以推动工业4.0转型。
该论文综述了深度学习在乳腺癌成像中的应用,包括筛查、诊断和预后预测。研究表明,使用“Vision Transformer”模型可提高检测准确率,并结合可解释性技术帮助医生理解模型决策,促进医学AI的应用。
本文提出了一种新型网络结构CTO,结合卷积神经网络、Vision Transformer和边界检测,显著提升医学图像分割的准确性和效率。实验结果表明,该方法在多个数据集上表现优异,特别是在复杂形状文本和视频边界估计方面效果良好。
本文探讨了高效的图像处理技术,重点在于 Vision Transformer 模型的剪枝和加速方法。提出的 HeatViT 和 PPT 框架通过动态剪枝和汇聚技术显著降低计算成本,同时保持模型准确性。UP-ViTs 进一步压缩模型体积并提升性能,适用于目标检测等任务。这些方法在移动设备和 FPGA 上实现了实时执行,具有广泛的应用前景。
本研究探讨了深度学习在乳腺癌检测中的应用,特别是“Vision Transformer (ViT)”模型,其准确率达到95.15%。同时提出了混合多任务深度神经网络(Hybrid-MT-ESTAN),在乳腺超声图像分类中取得82.7%的准确率。研究表明,基于注意力机制的卷积神经网络在乳腺癌检测中表现优越,结合高分辨率红外热成像技术进一步提升了检测效果。
本文介绍了视觉领域中使用transformer的方法,包括Vision Transformer、SASA-Layer和Rethinking and Improving Relative Position Encoding for Vision Transformer等模型。这些方法在图像分类和其他视觉任务中表现出色。
本研究使用Vision Transformer模型结合近似计算方法分析了低功耗设备上Transformer模型的计算要求和性能折衷,提出了使用蒙特卡洛树搜索算法生成Vision Transformer模型的近似加速器的方法,实现了显著的功耗优化。
提出了 SmoothQuant with bias term (SQ-b) 和 optimal scaling factor ratio search (OPT-m) 方法以及一种多精度后训练量化框架 (MPTQ-ViT),在 ImageNet 数据集上进行的实验表明,与现有方法相比,所提方法在 4 位和 5 位量化的 ViTs 上均取得了显著的准确度提高。
本论文提出了一种创新的 Vision Transformer 算法,用于诊断和量化 COVID-19 的严重程度。实验结果显示,该模型具有卓越的泛化能力和最先进的性能。
该文介绍了一种高分辨率人像抠图的轻量级模型,采用了两阶段的框架,通过 Vision Transformer 作为低分辨率网络的主干,能够在高清视频中实时进行处理。该模型在细化网络中提出了一种新颖的跨区域注意力模块,取得了优越结果。
完成下面两步后,将自动完成登录并继续当前操作。