小红花·文摘

本论文提出了一个小型的Vary-toy模型，通过改进的视觉词汇表和物体检测驱动的积极样本数据，使模型具备Vary的特征并更充分地利用词汇网络的容量，从而高效地编码与自然物体对应的视觉信息。实验结果显示，Vary-toy在不同任务上的准确率分别为65.6%、59.1%、88.1%和29%。