本文介绍了如何使用带有vLLM的PrithviGeospatialMAE模型进行图像推理,包括安装Python库、下载模型权重和示例图像。提供了模型初始化、数据处理和推理的完整流程,支持多波段图像的读取与保存。
本研究提出TailoredBench方法,以解决模型快速演变期间大型基准评估的资源消耗问题。定制评估使MAE准确率估计平均降低31.4%。
3D医学图像分割面临挑战,深度学习虽然提升了完全监督方法,但仍需大量注释。为此,提出了一种概率感知的弱监督学习流程,结合伪标签生成、概率多头自注意网络和基于概率的损失函数,显著提升了分割性能,尤其在CT和MRI数据集上,某些器官的Dice得分提高了18.1%。
本文改进了自我监督语音和音频分类模型SSAST,通过整合MAE的编码器-解码器结构,解决高掩码比率问题,加速预训练并降低内存使用。在下游任务中表现优于原模型,并评估了不同预训练策略,探讨视觉和音频领域的差异。
本研究提出了SenPa-MAE模型,解决了多卫星环境中卫星传感器特征不匹配的问题。该模型通过传感器参数编码和数据增强策略,能有效捕捉和理解不同传感器的参数及其与观测信号的关联。研究结果为建立传感器无关的地球观测基础模型提供了新路径,促进了跨传感器训练和无关推理的可能性。
本研究针对现有掩码自编码器在点云自监督学习中存在的缺陷,提出了一种新的方法,即PCP-MAE,通过学习预测掩码补丁的中心来提高重构效果。关键发现表明,掩码补丁的中心对重构至关重要,方法在预训练效率上显著优于传统方法,并在ScanObjectNN的多个变体上取得了显著提升。
自我监督学习是一种有效的方法,可以从大规模无标签数据中学习表示,对时间序列分析显示出有希望的结果。本文从对比和生成两个主要流派对比研究了时间序列中的自我监督表示学习。我们介绍了对比和生成 SSL 的基本框架,并讨论了监督信号的获取方法。通过比较分析经典算法 SimCLR 和 MAE,我们提供了每种方法的优势和劣势的见解,并为选择合适的 SSL 方法提供了实用的建议。我们还讨论了研究结果对表示学习领域的影响,并提出了未来的研究方向。
本文介绍了MetaMAE,一种通过元学习和任务对比学习来提高Masked Auto-Encoder(MAE)性能的自监督学习框架。实验证明MetaMAE在自监督学习基准中表现优秀。
本文提出了一种改进方法,用于自我监督语音及音频分类中的SSAST模型。通过集成MAE的编码器-解码器结构,提高了预训练速度和内存使用率,并在下游任务中表现更优。同时,评估了预训练策略,并探讨了MAE风格预训练在视觉和音频领域的不同之处。
神经场在计算机视觉和机器人技术中表现出色。使用神经场进行自监督预训练,生成有效的三维表示。利用NeRF的体积网格作为Transformer的输入,通过遮盖NeRF的辐射和密度网格的随机补丁,使模型学习完整场景的语义和空间结构。NeRF-MAE自监督预训练方法在各种三维任务上表现出色,提升绝对性能超过20%和8%。
该研究提出了一种基于掩码自编码器的自监督模型,用于远程感知图像理解。通过尺度增强技术和交叉尺度一致性约束,确保一致且有意义的表示。实验证明该模型在性能上优于其他方法。
本研究介绍了对双元回归模型的偏差感知评估以避免在关键现实应用中潜在的不公平和风险,证明了使用 Eccentricity-Area Under the Curve 作为补充指标可以量化被称为偏心偏差的现象。
Fus-MAE is a self-supervised learning framework based on masked autoencoders that performs data fusion between synthetic aperture radar and multispectral optical data, effectively competing with...
本研究使用经典和深度学习模型技术分析Moonboard数据集,取得了0.87的MAE和1.12的RMSE的成果。该方法无需将路线分解为单个动作,避免了偏见。研究展示了模型在不同版本之间的泛化能力,并引入了一种新的基于视觉的等级预测方法。尽管泛化性能低于人类水平,但可作为未来工作的基础。该工具可应用于移动应用程序,帮助攀岩者跟踪进展和评估新路线,减少偏见。
LC-MAE是一种自我监督学习框架,利用全局上下文理解视觉表示,减少输入的空间冗余。在ImageNet-1K上使用ViT-B实现了84.2%的top-1准确率,比基准模型提高了0.6%。在下游任务中,LC-MAE取得了显著的性能提升,并在多个鲁棒性评估指标上表现优异。
该文介绍了一种运动引导的掩蔽算法(MGM),以提高视频显著性。该算法在两个大规模视频基准中相比先前的最先进方法,为视频MAE提供了关键装备,并取得了高达+1.3%的改进。此外,该算法只使用了最多66%的训练时期,就可以获得与先前的视频MAE相等的性能。最后,该算法在多个数据集上对下游迁移学习和领域自适应任务的泛化能力比基线方法提高了高达+4.9%。
本文介绍了一种基于课程学习的掩模自编码器(CL-MAE),通过增加自监督重建任务的复杂性,提高模型学习更复杂和可转移的表示能力。通过在ImageNet数据集上的训练和五个下游任务的实证结果验证了该方法的成功应用。
本文介绍了基于卷积神经网络的MAE自监督方法,通过对输入图片进行mask并进行重建任务,学习到了鲁棒的视觉特征。作者提出了基于CNN的类MAE方法,通过稀疏卷积和分层次的解码器实现了和ViT类似的效果。实验结果表明,该方法在性能上媲美原始的MAE方法,并在各种下游任务中取得了SOTA的结果。
完成下面两步后,将自动完成登录并继续当前操作。