本研究提出了像素级视觉实体链接(PL-VEL)任务,旨在解决传统视觉实体链接(VEL)对文本输入的依赖。开发的MaskOVEN-Wiki数据集包含500万个标注,实验结果显示模型准确率提高了18个百分点,标注成功率达到94.8%。
完成下面两步后,将自动完成登录并继续当前操作。