小红花·文摘

本研究提出了多种基于Vision Transformer（ViT）的模型优化方法，如NViT、UP-ViTs和Edge-MoE，旨在提高模型准确性、降低计算成本，并实现高效的边缘设备部署。这些方法通过结构裁剪、知识蒸馏和协同推理等技术，显著提升了模型性能和运行速度，适应资源受限的环境。

ED-ViT：针对边缘设备的分布式推理视觉变换器

BriefGPT - AI 论文速递 ·

本论文研究了基于Vision Transformer（ViT）的目标检测模型YOLOS的可迁移性。实验结果显示，YOLOS以纯sequence-to-sequence的方式完成目标检测，附加的归纳偏置最小。与DETR相比，YOLOS选择了仅编码器的Transformer架构，并使用预训练的ViT表达。实验结果表明，YOLOS在复杂的目标检测任务上具有竞争力的性能。

YOLOS：大道至简，直接使用预训练ViT进行实时目标检测 | NeurIPS 2021 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

该研究提出了多种新方法来解决少样本物体计数问题，包括基于相似性比较和特征增强的模块、类不可知计数框架以及预训练的Vision Transformer解决方案。这些方法在多个数据集上表现优异，显著提高了目标计数的精度和效率，推动了零样本学习的发展。

互相感知特征学习的少样本目标计数

BriefGPT - AI 论文速递 ·

该论文提出了 UP-ViTs 统一结构修剪框架，旨在压缩 Vision Transformer 模型体积并提高准确性。通过稀疏输入令牌和软剪枝，显著降低计算成本，适用于移动设备和 FPGA。同时，研究提出了多种高效的压缩技术，如 HeatViT 和 NViT，优化了模型性能和资源利用，确保在保持精度的同时实现更高的计算效率。

LPViT：低功耗半结构化剪枝用于视觉 Transformer

BriefGPT - AI 论文速递 ·

本文研究了医学影像学中Vision Transformer (ViT)的可解释性，提出了IA-ViT模型和注意力引导可视化方法，显著提高了解释的准确性和鲁棒性，并探讨了不同解释性方法的分类及应用，强调了未来的研究方向。

概率概念解释器：用于视觉基础模型的可信概念解释

BriefGPT - AI 论文速递 ·

本文研究了利用卷积神经网络（CNN）和胸部X射线图像快速诊断COVID-19的有效性。结果表明，三层CNN模型的筛查精度可达96%。在十折交叉验证中，102例COVID-19病例全部正确分类，AUC为0.997。此外，研究提出了基于Vision Transformer的创新框架，显示出优秀的检测性能，强调了胸部X线作为快速低成本筛查工具的重要性。

CoVScreen: 使用胸部 X 光筛查 COVID-19 的问题与建议

BriefGPT - AI 论文速递 ·

本文提出了一种基于 F-measure 值的正反馈方法，显著提高了显著性预测模型的准确性。该方法无需复杂的解码器设计，适应性强，实验结果显示在五个公开数据集上超越了12种最新方法。此外，研究探讨了多种基于 Vision Transformer 的网络和新型特征学习框架，在显著目标检测任务中表现优异。

外部提示特征增强的参数高效微调用于显著性目标检测

BriefGPT - AI 论文速递 ·

本文探讨了深度学习模型在乳腺癌浸润性导管癌（IDC）诊断中的应用。研究显示，深度残差卷积网络的预测准确率高达99.29%，迁移学习和支持向量机分类器也显著提高了分类准确性。使用Vision Transformer模型的研究表明，其准确性和效率优于传统卷积神经网络，达到了95.15%的准确率。

基于有监督对比视觉变换器的乳腺组织病理图像分类

BriefGPT - AI 论文速递 ·

本研究探讨了细粒度分类在物种鉴定中的应用，比较了不同深度学习模型的表现。混合模型在准确性上优于其他模型，而完全转换器模型在推断速度上更快。研究还提出了多阶段的 Vision Transformer 框架和新的分类方法，展示了其在生物多样性研究中的潜力。

基于众包昆虫图像的细粒度分类的计算机视觉算法性能

BriefGPT - AI 论文速递 ·

本文提出了一种名为ViT-ReciproCAM的视觉解释方法，旨在提高Vision Transformer（ViT）模型的可解释性。该方法通过激活令牌与网络预测的相关性生成显著性地图，表现优于现有方法。研究表明，ViT-ReciproCAM在理解和调试ViT模型方面具有良好的定位性能，尤其在医学影像学领域展现了潜力。

LeGrad：通过特征形成敏感度的视觉 Transformer 可解释性方法

BriefGPT - AI 论文速递 ·

本文探讨了一种生成通用对抗性攻击的方法，旨在干扰语义分割模型的掩码预测。研究提出了一种简单有效的攻击策略，重点关注图像编码器，并通过正则化损失增强特征传递性。此外，利用无监督学习和基于Vision Transformer的模型，构建了高效的图像分割框架，以推动工业4.0转型。

通过模拟变形实现非分割

BriefGPT - AI 论文速递 ·

该论文综述了深度学习在乳腺癌成像中的应用，包括筛查、诊断和预后预测。研究表明，使用“Vision Transformer”模型可提高检测准确率，并结合可解释性技术帮助医生理解模型决策，促进医学AI的应用。

基于贝叶斯网络和深度学习的癌症影像诊断改进：一种贝叶斯深度学习方法

BriefGPT - AI 论文速递 ·

本文提出了一种新型网络结构CTO，结合卷积神经网络、Vision Transformer和边界检测，显著提升医学图像分割的准确性和效率。实验结果表明，该方法在多个数据集上表现优异，特别是在复杂形状文本和视频边界估计方面效果良好。

CT-Bound: 基于混合卷积和 Transformer 神经网络的噪声图像边界快速估计

BriefGPT - AI 论文速递 ·

本文探讨了高效的图像处理技术，重点在于 Vision Transformer 模型的剪枝和加速方法。提出的 HeatViT 和 PPT 框架通过动态剪枝和汇聚技术显著降低计算成本，同时保持模型准确性。UP-ViTs 进一步压缩模型体积并提升性能，适用于目标检测等任务。这些方法在移动设备和 FPGA 上实现了实时执行，具有广泛的应用前景。

通过静态和动态修剪在 FPGA 上加速 ViT 推理

BriefGPT - AI 论文速递 ·

本研究探讨了深度学习在乳腺癌检测中的应用，特别是“Vision Transformer (ViT)”模型，其准确率达到95.15%。同时提出了混合多任务深度神经网络（Hybrid-MT-ESTAN），在乳腺超声图像分类中取得82.7%的准确率。研究表明，基于注意力机制的卷积神经网络在乳腺癌检测中表现优越，结合高分辨率红外热成像技术进一步提升了检测效果。

用高效的混合式 CNN-Transformer 模型重新定义膀胱镜检查：膀胱癌诊断

BriefGPT - AI 论文速递 ·

transformer and attention(三)

Sekyoro的博客小屋 ·

本研究使用Vision Transformer模型结合近似计算方法分析了低功耗设备上Transformer模型的计算要求和性能折衷，提出了使用蒙特卡洛树搜索算法生成Vision Transformer模型的近似加速器的方法，实现了显著的功耗优化。

TransAxx: 高效逼近计算的 Transformer

BriefGPT - AI 论文速递 ·

提出了 SmoothQuant with bias term (SQ-b) 和 optimal scaling factor ratio search (OPT-m) 方法以及一种多精度后训练量化框架 (MPTQ-ViT)，在 ImageNet 数据集上进行的实验表明，与现有方法相比，所提方法在 4 位和 5 位量化的 ViTs 上均取得了显著的准确度提高。

MPTQ-ViT：VisionTransformer 的混合精度后训练量化

BriefGPT - AI 论文速递 ·

本论文提出了一种创新的 Vision Transformer 算法，用于诊断和量化 COVID-19 的严重程度。实验结果显示，该模型具有卓越的泛化能力和最先进的性能。

LT-ViT：用于多标签胸部 X 射线分类的视觉 Transformer

BriefGPT - AI 论文速递 ·

该文介绍了一种高分辨率人像抠图的轻量级模型，采用了两阶段的框架，通过 Vision Transformer 作为低分辨率网络的主干，能够在高清视频中实时进行处理。该模型在细化网络中提出了一种新颖的跨区域注意力模块，取得了优越结果。

基于区域注意力和精细化的轻量级人像抠图

BriefGPT - AI 论文速递 ·