本文提出HGCLIP框架,将CLIP与图表示学习结合,利用类层次结构提升视觉识别性能。同时介绍MERU模型,增强图像与文本的层次关系,提升分类与检索任务的表现。研究探讨了多模态表示学习的多种方法,展示了在医学图像分析等领域的有效性和潜力。
完成下面两步后,将自动完成登录并继续当前操作。