Reverse Region-to-Entity Annotation for Pixel-Level Visual Entity Linking
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了像素级视觉实体链接(PL-VEL)任务,旨在解决传统视觉实体链接(VEL)对文本输入的依赖。开发的MaskOVEN-Wiki数据集包含500万个标注,实验结果显示模型准确率提高了18个百分点,标注成功率达到94.8%。
🎯
关键要点
- 本研究提出了像素级视觉实体链接(PL-VEL)任务,旨在解决传统视觉实体链接(VEL)对文本输入的依赖。
- 开发的MaskOVEN-Wiki数据集包含超过500万个标注,能够提高细粒度视觉理解。
- 通过反向标注框架实现94.8%的标注成功率。
- 实验结果显示模型准确率较零样本模型提升了18个百分点。
🏷️
标签
➡️