该研究提出了一种基于Segment Anything Model(SAM)的预训练框架,用于生成热成像图像的伪标签,从而提升分割精度。同时,创建了一个包含10万个像素注释的大规模数据集。通过适应性修改,RSAM-Seg在遥感图像分析中表现出色,尤其在云检测和建筑物检测任务中,展现了良好的少样本性能和缺陷检测能力。
本文介绍了Lifelong-MoE,一种基于扩展混合专家架构的终身学习方法,具有更好的少样本性能和适应性。研究表明,混合专家模型在成本效益上优于密集模型,尤其在多轮对话任务中,路由机制的设计对性能影响显著。提出了改进策略以提升模型效率和推理速度。
本研究通过引入对抗性提示调整(AdvPT)技术,提升视觉-语言模型的鲁棒性,改善对抗攻击脆弱性。提出了多任务视觉语言提示调整(MVLPT)和动态视觉提示(DVP)等新方法,在多个视觉任务上表现优异。同时,研究探讨了多模态提示和渐进式视觉提示结构的应用,显著提高了模型在少样本情况下的性能。
该文介绍了一种名为MMICL的模型,用于解决图像与文本交叉多模态提示的问题。该模型能够适应用户真实应用中复杂的提示,在广泛的视觉-语言任务中取得了新的最先进的零样本和少样本性能。
完成下面两步后,将自动完成登录并继续当前操作。