WYTIWYR: 一种用于可视化检索的具有多模态输入的用户意图感知框架(A User Intent-Aware Framework with Multi-modal Inputs for Visualization Retrieval)

WYTIWYR: 一种用于可视化检索的具有多模态输入的用户意图感知框架(A User Intent-Aware Framework with Multi-modal Inputs for Visualization Retrieval)

💡 原文中文,约1700字,阅读约需4分钟。
📝

内容提要

本文提出了一个用户意图感知的图表检索框架WYTIWYR,利用多模态输入融合显式视觉属性和隐含的用户意图。该框架可以让用户自定义属性,同时利用CLIP模型将文本和图片映射到一个统一的投影空间。实验结果表明,该方法相比于HOG和CNN更能满足用户的检索需求。

🎯

关键要点

  • 提出了一个用户意图感知的图表检索框架WYTIWYR。
  • 框架利用多模态输入融合显式视觉属性和隐含的用户意图。
  • 用户可以自定义属性,使用CLIP模型将文本和图片映射到统一的投影空间。
  • 注释阶段提取图表中的基本属性和扩展属性。
  • 基本属性包括图表类别、颜色编码、趋势和布局方式。
  • 扩展属性允许用户提供感兴趣的类别标签进行分类。
  • 检索阶段用户可以基于提取的数据属性过滤图表库。
  • 使用CLIP模型的图片编码器和文本编码器生成综合检索特征向量。
  • 与HOG和CNN方法相比,WYTIWYR更能满足用户的检索需求。
  • 大模型的发展促进了对文本和图片的语义理解,带来了可视化研究的新机遇。
➡️

继续阅读