ALADIN是一种新型图像样式相似度搜索架构,利用微弱监督学习实现数字艺术品的细粒度样式表示。研究提出了StyleBabel数据集,包含135K数字艺术作品的自然语言描述,并结合ALADIN架构和视觉变换器进行样式检索。此外,还提出了ArtSem数据集和多领域艺术品合成框架,通过条件生成对抗网络生成高质量艺术作品,并探讨了无标签数据的艺术图像物体识别方法。
ALADIN是一种高效的图文匹配方法,通过图像文本层次对齐产生得分,并通过蒸馏得到的相关性得分学习共享的嵌入空间。该方法速度快,可与最先进的VL Transformer网络相竞争,具有横跨视觉和语言的领先地位。
完成下面两步后,将自动完成登录并继续当前操作。