改革城市安全感评估:将多模态大型语言模型与街景图像集成
原文中文,约300字,阅读约需1分钟。发表于: 。衡量城市安全感知是一项重要而复杂的任务,传统上严重依赖人力资源,而使用深度学习方法及多模态的大型语言模型可以实现大规模的城市安全检测,提出的基于 Contrastive Language-Image Pre-training (CLIP) 和 K-Nearest Neighbors (K-NN) 的方法能快速评估整个城市的安全指数,并优于现有的深度学习方法,具有高效和准确的城市安全评估能力。
介绍了CityLLaVA微调框架,用于城市场景的视觉语言模型,通过边界框进行最佳视觉数据预处理,提高指令理解和预测准确性,实验结果领先。