M$^2$IST: 多模式交互侧调节用于记忆效率的指称表达理解
原文中文,约300字,阅读约需1分钟。发表于: 。Referring expression comprehension is improved through M$^2$IST, a parameter- and memory-efficient transfer learning method utilizing M$^3$ISAs for establishing connections between pre-trained...
本文介绍了一种高效的迁移学习方法,将自然领域的视觉-语言知识转移到遥感领域的图像-文本检索任务上。通过预训练的CLIP模型、多模态遥感适配器和混合多模态对比学习目标,解决了遥感数据中高内部相似性的问题。实证研究结果表明,该方法在RSITR任务上具有应用潜力,可以节省训练成本并提高检索性能,为RS视觉-语言任务提供新思路和见解。