小红花·文摘

中国科学院自动化所和阿里云合作推出街景定位大模型AddressCLIP，通过一张照片实现街道级精度的定位。该模型基于CLIP构建，通过数据集构建和模型训练实现图像地理定位任务。AddressCLIP在定量和定性实验中表现优于其他方法。未来可应用于社交媒体个性化推荐和地理信息问答。

量子位 ·

本文介绍了多种基于CLIP模型的视觉-语言方法，包括短语定位、图像到GPS检索、半监督图像标注和音频驱动定位等。这些方法在多个任务中表现出色，展现了良好的泛化能力和鲁棒性，推动了计算机视觉与自然语言处理的结合。

BriefGPT - AI 论文速递 ·