本文介绍了一种基于自注意力块的局部信息增强模块LIFE,通过提取局部信息并合并到ViTs的嵌入中,改进了ViTs在小尺寸图像分类数据集上的性能,并推广到目标检测和语义分割等任务。同时,引入了一种新的可视化方法密集注意力Roll-Out,适用于密集预测任务。
该文章介绍了Spatial Pyramid Attention Network (SPAN)框架,用于检测和定位图像篡改。SPAN通过构建局部自注意力块的金字塔来建模多尺度图像块之间的关系。在合成数据集上训练并在标准数据集上显示出显著性能提升。
我们提出了一种无姿势大重建模型(PF-LRM),可以从少数非姿势图像中重建三维物体,同时在单个A100 GPU上估计相机姿势,仅需约1.3秒。PF-LRM利用自注意力块在三维物体标记和二维图像标记之间交换信息,具有强大的泛化能力,并在未见评估数据集上超越基线方法。模型适用于下游文本/图像到三维任务,并具有快速的前馈推理。
完成下面两步后,将自动完成登录并继续当前操作。