小红花·文摘

本文探讨了多模态大型语言模型在城市环境感知和自动驾驶安全中的应用。通过结合街景图像和机器学习，提升了人类感知研究的深度和准确性。介绍了UrbanCLIP框架和CityLLaVA微调框架，分别用于城市影像特征建模和交通安全分析，显著提高了预测性能。同时，MLLMGuard评估了多模态模型的安全性，强调了隐私和偏见等问题。