中国科学院自动化所和阿里云合作推出街景定位大模型AddressCLIP,通过一张照片实现街道级精度的定位。该模型基于CLIP构建,通过数据集构建和模型训练实现图像地理定位任务。AddressCLIP在定量和定性实验中表现优于其他方法。未来可应用于社交媒体个性化推荐和地理信息问答。
本研究探索了预训练视觉-语言模型在智能生成图像的检测中的潜力。通过基于CLIP特征的轻量级检测策略,发现不需要大量特定领域数据集训练,仅利用少量示例图像即可展现出泛化能力,并在商业工具中具有高鲁棒性。在分布内数据上与SoTA相匹配,分布外数据的泛化能力和鲁棒性有显著改进。
完成下面两步后,将自动完成登录并继续当前操作。