小红花·文摘

本文介绍了一种新型图像分词器策略，基于语义视觉转换器（sViT）的分割模型在特征捕获和全局依赖关系上表现优越。通过引入Plug-and-Play开放词汇语义分割技术，显著提升了图像分类和理解的效率，尤其在视觉问答和图像字幕生成任务中表现良好。