北京大学可视化与可视分析博客 ·

WYTIWYR: 一种用于可视化检索的具有多模态输入的用户意图感知框架(A User Intent-Aware Framework with Multi-modal Inputs for Visualization Retrieval)

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

本文提出了一个用户意图感知的图表检索框架WYTIWYR，利用多模态输入融合显式视觉属性和隐含的用户意图。该框架可以让用户自定义属性，同时利用CLIP模型将文本和图片映射到一个统一的投影空间。实验结果表明，该方法相比于HOG和CNN更能满足用户的检索需求。

🎯

关键要点

提出了一个用户意图感知的图表检索框架WYTIWYR。
框架利用多模态输入融合显式视觉属性和隐含的用户意图。
用户可以自定义属性，使用CLIP模型将文本和图片映射到统一的投影空间。
注释阶段提取图表中的基本属性和扩展属性。
基本属性包括图表类别、颜色编码、趋势和布局方式。
扩展属性允许用户提供感兴趣的类别标签进行分类。
检索阶段用户可以基于提取的数据属性过滤图表库。
使用CLIP模型的图片编码器和文本编码器生成综合检索特征向量。
与HOG和CNN方法相比，WYTIWYR更能满足用户的检索需求。
大模型的发展促进了对文本和图片的语义理解，带来了可视化研究的新机遇。

🏷️

标签

CLIP模型 framework 可视化推荐图表检索多模态输入用户意图

➡️

继续阅读