小红花·文摘

本文提出了“视觉实体匹配”学习问题，旨在克服现有图像分类和检索算法的局限性。研究建立了人脸识别基准任务，识别100万张面部图像并链接实体，同时介绍了Flickr30k和EuroCity Persons等数据集，以推动自动图像描述和对象检测的发展。