小红花·文摘

本研究为商业地理信息系统从业者建立了大型语言模型（LLMs）在多步骤地理空间任务上的评估基准。评测结果显示，Sonnet 3.5和GPT-4o表现最佳，提供的开源基准和评估框架将推动GeoAI领域的标准化研究。