用扩散模型统一视觉与语义特征空间,增强跨模态对齐
发表于: 。图像分类模型在现实世界的应用中由于图像信息的变化而表现出不稳定的性能,为了解决这个问题,我们引入了一个名为 MARNet 的多模态对齐与重构网络,旨在增强模型对视觉噪声的抵抗性,并通过学习一个域一致的潜在特征空间来协调不同的视觉和语义特征。实验证明,MARNet 能够有效改善模型提取的图像信息质量,并且是一个可快速集成到各种图像分类框架中的即插即用框架,提升模型性能。
图像分类模型在现实世界的应用中由于图像信息的变化而表现出不稳定的性能,为了解决这个问题,我们引入了一个名为 MARNet 的多模态对齐与重构网络,旨在增强模型对视觉噪声的抵抗性,并通过学习一个域一致的潜在特征空间来协调不同的视觉和语义特征。实验证明,MARNet 能够有效改善模型提取的图像信息质量,并且是一个可快速集成到各种图像分类框架中的即插即用框架,提升模型性能。