💡
原文中文,约4000字,阅读约需10分钟。
📝
内容提要
洪水是常见且破坏性强的自然灾害,研究需依赖高质量的历史数据。Google Research 开源的 Groundsource 数据集,通过处理500万篇新闻,提取了260万条洪水事件记录,填补了传统数据库的不足,为全球洪水研究提供了新的数据来源。
🎯
关键要点
- 洪水是高频率和高破坏力的自然灾害,研究依赖高质量的历史数据。
- Google Research 开源的 Groundsource 数据集填补了传统数据库的不足,提供260万条洪水事件记录。
- 传统水文与气象观测站点分布稀疏,难以支持高精度洪水信息收集。
- 大量洪水事件信息散落在非结构化文本中,过去提取数据受限于文本标准化程度低。
- Groundsource 数据集通过处理500万篇新闻报道,提供前所未有的数据规模与覆盖度。
- 数据提取流程使用谷歌基础设施,确保可在不同技术环境中复现。
- 系统自动从网页中提取洪水事件信息,经过质量控制得到264万条独立记录。
- Groundsource 数据集的事件精准率约为60%,若计入轻微偏差则约82%可用于分析。
- 数据集呈现近期偏差,64%的记录集中在2020年至2025年之间。
- Groundsource 在空间分辨率方面表现突出,82%的记录小于50平方公里。
- 与GDACS和DFO数据库对比,Groundsource的召回率高,尤其在媒体基础设施完善的地区。
- AI驱动的洪水数据研究逐渐成为重要方法,MIT和新加坡国立大学的研究团队在此领域展开探索。
- 微软研究院与NASA合作开发的AI洪水风险预测平台,整合多种数据源进行洪水预测。
- 自动提取洪水事件信息的方法有望为全球洪水风险研究提供更丰富的数据基础。
➡️