顶会论文深度解析|基于飞桨实现的多模态城市基础模型

💡 原文中文,约4400字,阅读约需11分钟。
📝

内容提要

飞桨社区开发者肖淙曦和周景博在KDD2024上发表了论文《ReFound: Crafting a Foundation Model for Urban Region Understanding upon Language and Visual Foundations》,该研究构建了一个通用城市区域理解任务的基础模型,能够应用于多种下游任务。通过自监督预训练和知识蒸馏,该模型能够从多模态城市数据中学习领域知识,并提升泛化能力。实验证明该模型在不同下游任务中表现出色。相关代码已在PaddleSpatial平台上开源。

🎯

关键要点

  • 飞桨社区开发者在KDD2024上发表论文《ReFound》,构建通用城市区域理解基础模型。
  • 该模型通过自监督预训练和知识蒸馏,从多模态城市数据中学习领域知识,提升泛化能力。
  • 研究首次展示多模态基础模型在城市计算领域的适用性和可扩展性。
  • 城市区域理解对城市规划和治理政策至关重要,目前大多数方法需大量标注数据,缺乏泛化能力。
  • ReFound框架结合语言、视觉等多个基础模型,解决广泛区域理解任务。
  • 模型架构设计包括POI数据和卫星图数据的嵌入模块,采用混合地理专家Transformer。
  • 预训练策略包括自监督学习任务和知识蒸馏任务,以提升模型的泛化能力。
  • 实验验证了ReFound模型在不同下游任务中的有效性,表现优于其他基础模型。
  • 相关代码已在PaddleSpatial平台上开源,支持多种时空计算场景的应用。
➡️

继续阅读