本研究提出了一种空间解耦框架,简化了低秩优化的复杂性。通过将有界秩与正交不变约束分解为独立空间,优化过程变得更简单,Riemannian算法在光滑流形上的实现也更为便捷,实验证明该框架具有优越性能。
本研究提出了一种新的“Prompt and Transfer”(PAT)方法,解决了传统少样本分割方法中的问题。该方法在多个任务上表现出优越性能,并在11个基准测试中设立了新的状态-of-艺术。
本研究提出了一种轻量级的蒸馏小模型MMDRFuse,解决了多模态图像融合中训练策略关注不足的问题。实验证明该方法在多个图像融合任务和行人检测应用中表现出优越性能,为低资源下的快速图像输出提供了新的解决方案。
本研究提出了基于关键点提示的被遮挡人员重新识别问题的新解决方案,通过在输入边界框中添加语义关键点标记,解决了多人遮挡情况下无法确定重新识别目标的问题,并通过实验证明该方法在各种遮挡场景下具有优越性能。
浙江大学、上海人工智能实验室和牛津大学联合提出了DetToolChain,一种释放多模态大语言模型检测能力的新提示范式。DetToolChain通过设计视觉提示和检测推理提示,能够让多模态大模型学会精确检测,无需训练。实验证明,DetToolChain在多个任务上表现出优越性能,包括开放词汇检测、描述目标检测、指称表达理解和定向目标检测。
本研究探讨了音频作为生成时间同步图像动画的线索,并引入了音频同步视觉动画(ASVA)。通过音频生成动态动画,评估验证了ASVA作为同步生成基准,并展示了优越性能。研究还探索了ASVA在各种音频同步生成任务中的潜力,为可控的视觉生成开辟新的道路。
本文介绍了一种新的合奏学习机制,利用多个预训练模型的见解,识别受限资源下的视网膜疾病。实验证明该方法在处理受限标记数据时具有优越性能,适合在资源有限的情景中使用。
本文介绍了ASPIRe数据集和HIG方法,用于互动理解。HIG方法在各种场景中表现出优越性能。
该研究提出了一种新的IDKL网络,用于可见光红外人物再识别任务,通过提取模态特定和模态共享特征,减少模态风格差异并提升识别知识,实现了对隐含判别信息的利用,进一步强化模态共享特征的独特性。实验结果表明,IDKL网络具有优越性能。
介绍了ProAgent框架,利用大型语言模型预测合作伙伴决策并改进自身计划。实验证明ProAgent在与人工智能代理和人类合作中表现优越。
完成下面两步后,将自动完成登录并继续当前操作。