哪个国家是这个?街景照片的自动国家排名
原文中文,约200字,阅读约需1分钟。发表于: 。通过使用计算机视觉、机器学习和文本检索方法的组合,此论文展示了 Country Guesser,一种实时系统,可以猜测一张照片所拍摄的国家。有趣的是,使用基于文本的特征来调查大型预训练语言模型可以提供模态交叉监督,此前尚未有利用视觉和文本特征进行国家猜测的系统。
该论文研究了使用指南书中的知识改善地理定位任务的方法,并提出了一种使用StreetView图像数据集和GeoGuessr的文本指南进行地理定位的方法。该方法通过从指南书中提取的线索预测图像的国家,并使用伪标签监督地学习,优于只使用图像的地理定位方法。