本文提出了“视觉实体匹配”学习问题,旨在克服现有图像分类和检索算法的局限性。研究建立了人脸识别基准任务,识别100万张面部图像并链接实体,同时介绍了Flickr30k和EuroCity Persons等数据集,以推动自动图像描述和对象检测的发展。
完成下面两步后,将自动完成登录并继续当前操作。