本文提出了一个用户意图感知的图表检索框架WYTIWYR,利用多模态输入融合显式视觉属性和隐含的用户意图。该框架可以让用户自定义属性,同时利用CLIP模型将文本和图片映射到一个统一的投影空间。实验结果表明,该方法相比于HOG和CNN更能满足用户的检索需求。
完成下面两步后,将自动完成登录并继续当前操作。