小红花·文摘

该文章介绍了Spatial Pyramid Attention Network (SPAN)框架，用于检测和定位图像篡改。SPAN通过构建局部自注意力块的金字塔来建模多尺度图像块之间的关系。在合成数据集上训练并在标准数据集上显示出显著性能提升。

金字塔注意力网络用于医学图像配准

BriefGPT - AI 论文速递 ·

我们提出了一种无姿势大重建模型（PF-LRM），可以从少数非姿势图像中重建三维物体，同时在单个A100 GPU上估计相机姿势，仅需约1.3秒。PF-LRM利用自注意力块在三维物体标记和二维图像标记之间交换信息，具有强大的泛化能力，并在未见评估数据集上超越基线方法。模型适用于下游文本/图像到三维任务，并具有快速的前馈推理。

PF-LRM：用于联合姿态和形状预测的无姿态大型重建模型

BriefGPT - AI 论文速递 ·