小红花·文摘

本文介绍了一种基于深度学习的单图像去反射新方法，该方法利用位置感知和多尺度特征，显著提高了反射去除效果。研究表明，该方法在多个数据集上优于现有技术，具有良好的应用前景。

朝着人工引导的灵活互动去除反射

BriefGPT - AI 论文速递 ·

数据增强在视觉预训练模型中至关重要，能够提升模型的性能和泛化能力。研究表明，区域遮盖增加了多样性但降低了不变性。MixUp方法显著提升了多样性，而TransMix方法在多任务中提高了ViT的性能。在视频分类中，VideoMix策略表现优异。Droppos通过增强位置感知能力提升了模型性能，展现了出色的实验结果。

配置数据增强以减少视觉 Transformer 中位置嵌入的方差偏移

BriefGPT - AI 论文速递 ·

本研究提出了一种基于位置感知的视觉问题生成方法（LocaVQG），利用图像和GPS数据生成引人入胜的问题。通过GPT-4生成多样化问题，并开发轻量级模型以适应边缘设备。研究结果表明，该方法在人工和自动评估中均优于基线，验证了数据集生成技术的有效性。

BoQ：一个地方值得一袋可学习的查询

BriefGPT - AI 论文速递 ·

该文介绍了DualToken-ViT视觉变换模型，它融合局部和全局信息，使用位置感知的全局标记来丰富全局信息，改进了图像的位置信息。在图像分类、物体检测和语义分割任务上进行广泛实验，展示了DualToken-ViT的有效性。

CAIT：面向 ViTs 的高精度、快速推理和良好可迁移性的三赢压缩

BriefGPT - AI 论文速递 ·