本文介绍了如何使用带有vLLM的PrithviGeospatialMAE模型进行图像推理,包括安装Python库、下载模型权重和示例图像。提供了模型初始化、数据处理和推理的完整流程,支持多波段图像的读取与保存。
本研究提出了TailoredBench方法,旨在解决模型快速演变期间大型基准评估的资源消耗问题。该方法为每个目标模型定制评估,显著提高了准确率估计的有效性,实验结果表明在相同推断预算下,MAE准确率估计平均减少了31.4%。
本文介绍了医学变压器和UniMiSS等新框架,旨在提高3D医学图像分割的效率和准确性。通过自监督学习和概率感知弱监督学习,这些方法在CT和MRI数据集上超越了现有技术,显著提升了分割性能。
本文探讨了多种基于遮蔽自编码器(MAE)的遥感图像自监督学习方法,如SatMAE、SS-MAE和Cross-Scale MAE,展示了它们在多光谱和高光谱数据分类中的优越性。研究表明,这些方法通过改进的预训练框架和多模态数据融合,显著提升了遥感图像的分类和重建性能。
本研究针对现有掩码自编码器在点云自监督学习中存在的缺陷,提出了一种新的方法,即PCP-MAE,通过学习预测掩码补丁的中心来提高重构效果。关键发现表明,掩码补丁的中心对重构至关重要,方法在预训练效率上显著优于传统方法,并在ScanObjectNN的多个变体上取得了显著提升。
本文介绍了多模态蒙特卡洛自动编码器(MultiMAE-DER),该模型用于动态情感识别,并优化了多模态输入序列的融合策略,显著提升了模型性能。与现有模型相比,MultiMAE-DER在多个数据集上的召回率有所提高,展示了其在跨模态学习中的有效性。
该论文提出了一种自监督预训练框架,通过神经辐射场实现多模态感知表示学习,提升三维感知任务的可迁移性。研究展示了多种方法的优越性,特别是在少样本学习和三维对象检测方面。
该研究提出了一种基于掩码自编码器的自监督模型,用于远程感知图像理解。通过尺度增强技术和交叉尺度一致性约束,确保一致且有意义的表示。实验证明该模型在性能上优于其他方法。
本研究介绍了对双元回归模型的偏差感知评估以避免在关键现实应用中潜在的不公平和风险,证明了使用 Eccentricity-Area Under the Curve 作为补充指标可以量化被称为偏心偏差的现象。
Fus-MAE is a self-supervised learning framework based on masked autoencoders that performs data fusion between synthetic aperture radar and multispectral optical data, effectively competing with...
本研究使用经典和深度学习模型技术分析Moonboard数据集,取得了0.87的MAE和1.12的RMSE的成果。该方法无需将路线分解为单个动作,避免了偏见。研究展示了模型在不同版本之间的泛化能力,并引入了一种新的基于视觉的等级预测方法。尽管泛化性能低于人类水平,但可作为未来工作的基础。该工具可应用于移动应用程序,帮助攀岩者跟踪进展和评估新路线,减少偏见。
LC-MAE是一种自我监督学习框架,利用全局上下文理解视觉表示,减少输入的空间冗余。在ImageNet-1K上使用ViT-B实现了84.2%的top-1准确率,比基准模型提高了0.6%。在下游任务中,LC-MAE取得了显著的性能提升,并在多个鲁棒性评估指标上表现优异。
该文介绍了一种运动引导的掩蔽算法(MGM),以提高视频显著性。该算法在两个大规模视频基准中相比先前的最先进方法,为视频MAE提供了关键装备,并取得了高达+1.3%的改进。此外,该算法只使用了最多66%的训练时期,就可以获得与先前的视频MAE相等的性能。最后,该算法在多个数据集上对下游迁移学习和领域自适应任务的泛化能力比基线方法提高了高达+4.9%。
本文介绍了一种基于课程学习的掩模自编码器(CL-MAE),通过增加自监督重建任务的复杂性,提高模型学习更复杂和可转移的表示能力。通过在ImageNet数据集上的训练和五个下游任务的实证结果验证了该方法的成功应用。
本文介绍了基于卷积神经网络的MAE自监督方法,通过对输入图片进行mask并进行重建任务,学习到了鲁棒的视觉特征。作者提出了基于CNN的类MAE方法,通过稀疏卷积和分层次的解码器实现了和ViT类似的效果。实验结果表明,该方法在性能上媲美原始的MAE方法,并在各种下游任务中取得了SOTA的结果。
完成下面两步后,将自动完成登录并继续当前操作。