小红花·文摘

本文提出HGCLIP框架，将CLIP与图表示学习结合，利用类层次结构提升视觉识别性能。同时介绍MERU模型，增强图像与文本的层次关系，提升分类与检索任务的表现。研究探讨了多模态表示学习的多种方法，展示了在医学图像分析等领域的有效性和潜力。