小型语言模型与增强式视觉词汇的相遇

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本论文提出了一个小型的Vary-toy模型,通过改进的视觉词汇表和物体检测驱动的积极样本数据,使模型具备Vary的特征并更充分地利用词汇网络的容量,从而高效地编码与自然物体对应的视觉信息。实验结果显示,Vary-toy在不同任务上的准确率分别为65.6%、59.1%、88.1%和29%。

🎯

关键要点

  • 提出了一个小型的Vary-toy模型,基于Qwen-1.8B。
  • 引入改进的视觉词汇表,利用物体检测驱动的积极样本数据。
  • 替换自然图像的负样本,使模型具备Vary的特征。
  • 更充分地利用词汇网络的容量,高效编码与自然物体对应的视觉信息。
  • 实验结果显示,Vary-toy在DocVQA上达到65.6%的ANLS,ChartQA上59.1%,RefCOCO上88.1%,MMVet上29%。
  • 代码将在主页上公开提供。
➡️

继续阅读