小红花·文摘

本文介绍了一种名为Masked Frequency Modeling（MFM）的基于频域的自监督预训练方法，通过遮蔽图像的频率分量并预测丢失的频率信息来学习图像的表示。MFM在图像分类、语义分割和鲁棒性测试方面的性能优于其他基于遮蔽的图像建模方法。同时，本文还研究了传统图像恢复任务从频域角度进行表示学习的有效性，并揭示了与MFM方法之间的有趣关系。