小红花·文摘

本研究提出了像素级视觉实体链接(PL-VEL)任务，旨在解决传统视觉实体链接(VEL)对文本输入的依赖。开发的MaskOVEN-Wiki数据集包含500万个标注，实验结果显示模型准确率提高了18个百分点，标注成功率达到94.8%。