原文中文,约1700字,阅读约需4分钟。
📝
内容提要
本文提出了一个用户意图感知的图表检索框架WYTIWYR,利用多模态输入融合显式视觉属性和隐含的用户意图。该框架可以让用户自定义属性,同时利用CLIP模型将文本和图片映射到一个统一的投影空间。实验结果表明,该方法相比于HOG和CNN更能满足用户的检索需求。
🎯
关键要点
-
提出了一个用户意图感知的图表检索框架WYTIWYR。
-
框架利用多模态输入融合显式视觉属性和隐含的用户意图。
-
用户可以自定义属性,使用CLIP模型将文本和图片映射到统一的投影空间。
-
注释阶段提取图表中的基本属性和扩展属性。
-
基本属性包括图表类别、颜色编码、趋势和布局方式。
-
扩展属性允许用户提供感兴趣的类别标签进行分类。
-
检索阶段用户可以基于提取的数据属性过滤图表库。
-
使用CLIP模型的图片编码器和文本编码器生成综合检索特征向量。
-
与HOG和CNN方法相比,WYTIWYR更能满足用户的检索需求。
-
大模型的发展促进了对文本和图片的语义理解,带来了可视化研究的新机遇。
🏷️