身份证件全息图验证的弱监督训练

提出一种方法，通过在普通光照条件下处理智能手机捕捉的视频片段，远程验证身份文件中的光变设备（常称为 “全息图”），并在两个公共数据集上进行评估。该方法采用弱监督训练，优化特征提取和决策流程，实现了对 MIDV-HOLO 的新领先性能，并在作为攻击样本使用的 MIDV-2020 文档上保持了高召回率。这也是首个有效解决照片替换攻击任务的方法，可以根据需要训练真实样本、攻击样本或二者兼而有之，以提高性能。通过能够在很少的监督下验证 OVD 的形状和动态，这项工作为在普通智能手机上构建具有鲁棒性的远程身份文件验证系统提供了新途径。

原文约200字，阅读约需1分钟。发表于：。

使用领域自适应的弱监督核分割框架，通过交叉任务相互作用策略克服伪标签生成的挑战，并通过弱注释数据训练辅助检测任务，设计一种一致特征约束模块来提高领域自适应的效率。此外，我们还开发了伪标签优化和交互式训练方法来提升领域转移能力，实验证明我们的方法在六个数据集上具有优越性能。

本文评估了弱监督语义分割方法在不同数据集上的表现，并指出组织病理学和卫星图像的挑战。需要进一步研究实现通用方法。

相关推荐去reddit讨论

分享给好友

COIN: 计数事实上填充用于弱监督医学图像语义分割

通过解释性人工智能和反事实解释的框架，本研究开发了一种新型反事实修复方法（COIN），通过生成模型将分类标签从异常翻转到正常，实现对医学图像中病变的精确分割，不依赖于现有的分割掩模，证明其在肾脏肿瘤的语义分割方面优于现有的方法，并为稀缺标注数据的深度学习应用提供了更多可能。

相关推荐去reddit讨论

分享给好友

基于基础模型的弱监督激光雷达语义分割

本文提出了使用散点图对图像进行注释，然后利用 SAM（一种基本模型）为图像生成语义分割标签。通过使用相机和 LiDAR 的内在和外在参数将图像的分割标签映射到 LiDAR 空间，我们获得了点云语义分割的标签，并发布了 Scatter-KITTI 和 Scatter-nuScenes，这是第一个利用基于图像分割的 SAM 进行弱监督点云语义分割的作品。此外，为了减小稀疏注释获取的错误伪标签对点云特征的影响，我们提出了一种用于 LiDAR 语义分割的多模态弱监督网络，称为 MM-ScatterNet。该网络通过引入多模态特征和点云特征之间的一致性约束，增强了点云的表示学习。在 SemanticKITTI 数据集上，我们仅使用 0.02％的注释数据就实现了 66％的全监督性能，在 NuScenes 数据集上，仅使用 0.1％的标记点就实现了 95％的全监督性能。

相关推荐去reddit讨论

分享给好友

基于趋势驱动的弱监督增量语义分割

原文约500字，阅读约需2分钟。发表于：。

Weakly Incremental Learning for Semantic Segmentation (WILSS) addresses the issue of conflicting predictions and catastrophic forgetting by proposing a tendency-driven relationship of mutual exclusivity, allowing for concurrent execution with model parameter updating via a bi-level optimization problem, leading to new benchmarks and paving the way for further research.

本文介绍了一种自适应的弱监督语义分割方法，通过划分图像内容为确定性和不确定性区域，提高准确性。实验证明该方法在PASCAL VOC 2012和MS COCO 2014上优于其他方法。

相关推荐去reddit讨论

分享给好友

弱监督因果解离下的跨平台仇恨言论检测

原文约300字，阅读约需1分钟。发表于：。

使用基于置信度的重新权重和对比正则化的方法，本研究提出了 HATE WATCH，这是一种弱监督因果分解的新型框架，可以绕过显式目标标签的需求，并有效地将输入特征分解为对仇恨言论具有不变性的表示。在两个带有目标标签和两个没有目标标签的平台上进行的实证验证将 HATE WATCH 定位为一种新的跨平台仇恨言论检测方法，并展现出卓越的性能。HATE WATCH 推动了可扩展的内容管理技术，以发展更加安全的在线社区。

本研究提出了一种名为HATE WATCH的新型框架，用于检测跨平台的仇恨言论。通过重新权重和对比正则化的方法，HATE WATCH可以绕过目标标签的需求，并将输入特征分解为对仇恨言论具有不变性的表示。实证验证表明，HATE WATCH在带有和不带有目标标签的平台上表现出卓越性能。这项研究推动了可扩展的内容管理技术，以发展更安全的在线社区。

相关推荐去reddit讨论

分享给好友

利用对抗擦除和伪标签改进弱监督目标定位

原文约300字，阅读约需1分钟。发表于：。

该论文研究了一种弱监督对象定位的框架，通过仅使用图像和图像级别的类标签训练神经网络，旨在训练出能够同时预测对象类别和位置的神经网络，并通过采用对抗抹除和伪标签来提高定位准确性。在 ILSVRC-2012、CUB-200-2011 和 PASCAL VOC 2012 三个公开数据集上的实验结果表明，该方法在所有评估指标上都优于先前的最先进方法。

该论文研究了一种弱监督对象定位的框架，通过使用图像和图像级别的类标签训练神经网络，旨在训练出能够同时预测对象类别和位置的神经网络，并通过对抗抹除和伪标签来提高定位准确性。实验结果表明，该方法在三个公开数据集上的评估指标上优于先前的最先进方法。

相关推荐去reddit讨论

分享给好友

从不确定性推断和亲和力多样性角度解决弱监督语义分割中的模糊性问题

研究提出了 UniA，一种基于不确定性推理和亲和力多样化的统一单阶段弱监督语义分割框架，用于解决弱监督语义分割中的歧义问题，并在 PASCAL VOC、MS COCO 和医学 ACDC 数据集上验证了其有效性和优越性。

相关推荐去reddit讨论

分享给好友

弱监督语义分割的注意力图背景噪声消除

原文约300字，阅读约需1分钟。发表于：。

基于 Conformer 的 TransCAM 方法在弱监督语义分割中解决了背景噪声的问题，减少了背景噪声的影响，提高了伪标签的准确性。在实验中，我们的模型在 PASCAL VOC 2012 验证数据上达到了 70.5% 的分割性能，在测试数据上达到了 71.1% 的分割性能，在 MS COCO 2014 数据上达到了 45.9% 的分割性能，优于 TransCAM 方法。

基于Conformer的TransCAM方法解决了弱监督语义分割中的背景噪声问题，提高了伪标签的准确性。在实验中，模型在PASCAL VOC 2012验证数据上达到了70.5%的分割性能，在测试数据上达到了71.1%的分割性能，在MS COCO 2014数据上达到了45.9%的分割性能，优于TransCAM方法。

相关推荐去reddit讨论

分享给好友

基于双模态语义相似性的弱监督音频分离

原文约500字，阅读约需1分钟。发表于：。

通过在训练期间无需访问单一源声音数据而对多源音频混合进行有条件的声音分离是一个长期存在的挑战。本文提出了一个能够改进现有无监督框架以在目标模态（即音频）中使用条件模态（即语言）中的易于分离的相应信号分离单源信号的通用双模分离框架。我们的实验证明，如果我们可以访问两个模态之间（即 CLAP）的预训练联合嵌入模型，这是可以实现的。另外，我们还在两个基本场景中将我们的框架纳入进行了改进，通过减小训练样本和测试样本之间的分布差异，我们的方法显著提高了纯无监督基准的性能，并且在信噪比（SDR）方面可以实现 71％的提升，达到了有监督学习性能的 97.5％。我们还展示了通过我们提出的弱监督框架扩充有监督学习本身，可以进一步提高性能，使其成为强大的半监督音频分离框架。

本文提出了一个通用双模分离框架，可以在训练期间无需访问单一源声音数据而对多源音频混合进行有条件的声音分离。实验证明，通过访问预训练联合嵌入模型，可以实现这一目标。该框架显著提高了纯无监督基准的性能，并且在信噪比方面可以实现71%的提升。通过弱监督框架扩充有监督学习，可以进一步提高性能，使其成为强大的半监督音频分离框架。