一种基于轻量级 Transformer 的异构图像的自监督匹配网络

原文约300字，阅读约需1分钟。发表于：。

提出一种新的关键点描述方法，通过自监督匹配网络获取稳健的特征描述子。设计了一种轻量级变换网络 LTFormer 生成深层特征描述子，并通过创新的三元组损失函数 LT Loss 进一步提高匹配性能，相比手工设计的本地特征描述子表现更好，即使数据有限，也与最先进的基于深度学习的方法相媲美。

该研究提出了一种新的关键点描述方法，通过自监督匹配网络获取稳健的特征描述子。设计了一种轻量级变换网络 LTFormer 生成深层特征描述子，并通过创新的三元组损失函数 LT Loss 进一步提高匹配性能。与手工设计的本地特征描述子相比，该方法在数据有限的情况下表现更好，与最先进的基于深度学习的方法相媲美。

相关推荐去reddit讨论

分享给好友

低数据条件下的自监督视觉学习：一项比较评估

在相对有限 / 受约束的数据集中，通过比较实验评估了现代视觉自监督学习方法的有效性，发现针对特定领域的下游任务，在领域内的低数据量自监督预训练优于在通用数据集上进行大规模预训练，为该领域中各类自监督学习方法的性能提供了有价值的见解，并提出了直接的未来研究方向。

相关推荐去reddit讨论

分享给好友

参数高效微调无灾难性遗忘的自监督视觉迁移模型

人工神经网络经常面临灾难性遗忘的问题，其中视觉变换器尤其明显，我们通过两种参数高效的微调策略（块扩展和低秩适应）研究了如何解决这一问题，结果显示使用这些策略后的预训练视觉变换器在新领域具有更好的参数效率且能有效减轻灾难性遗忘。

相关推荐去reddit讨论

分享给好友

SAGHOG：自监督自编码器生成 HOG 特征进行作家检索

介绍了 SAGHOG，一种使用二值化输入图像的 HOG 特征进行自监督预训练的书写者检索策略。通过应用 'Segment Anything' 技术从各种数据集中提取手写文本，利用预训练的视觉转换器对手写文本的掩码补丁进行重构来进行预处理。然后，通过在预训练编码器后附加 NetRVLAD 编码层对 SAGHOG 进行微调。在三个历史数据集 Historical-WI、HisFrag20 和 GRK-Papyri 上评估了我们的方法，证明了 SAGHOG 在书写者检索方面的有效性。此外，对我们的架构进行了消融研究，并评估了非监督和监督微调。值得注意的是，在 HisFrag20 上，SAGHOG 的 mAP 达到了 57.2％，比现有技术水平高出 11.6％，展示了其在具有挑战性的数据上的鲁棒性；在小数据集 GRK-Papyri 上，我们实现了 58.0％的 Top-1 准确率，表现出竞争性。

相关推荐去reddit讨论

分享给好友

基于超图的自监督学习与高效采样信号

原文约200字，阅读约需1分钟。发表于：。

SE-HSSL 是一个基于超图的自我监督学习框架，通过两个无需采样的目标和一个基于层次关系的对比目标来解决超图自我监督学习模型中的负样本采样偏差和计算效率问题。实验证明，与现有方法相比，SE-HSSL 在有效性和效率上都具有优势。

SE-HSSL是一个基于超图的自我监督学习框架，通过两个无需采样的目标和一个基于层次关系的对比目标来解决超图自我监督学习模型中的负样本采样偏差和计算效率问题。实验证明，SE-HSSL在有效性和效率上都具有优势。

相关推荐去reddit讨论

分享给好友

基于空间环境的自监督学习用于手写文本识别

原文约300字，阅读约需1分钟。发表于：。

手写文本识别 (HTR) 是计算机视觉中一个相关的问题，由于其固有的可变性和对其解释所需的丰富的环境依赖性，其面临独特的挑战。本文研究了一种名为空间上下文自我监督学习（Spatial Context-based SSL）的方法，并探索了该方法在 HTR 中的应用和优化。我们的实验表明，所考虑的方法在一些基准案例中推动了 HTR 领域自我监督学习的最新技术进展。

本文研究了一种名为空间上下文自我监督学习（Spatial Context-based SSL）的方法，并探索了该方法在手写文本识别（HTR）中的应用和优化。实验表明，该方法推动了HTR领域自我监督学习的最新技术进展。