亚马逊AWS官方博客 ·

利用 Amazon Web Services Athena 处理 CSV 文件中的 JSON 数据

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

本文介绍了在AWS Athena中处理CSV文件中的JSON数据的三种方法，包括使用json_extract函数、建立中间表和使用with关键字。建立中间表可以提高性能和降低成本，但需要额外的自动化过程。作者建议在某些情况下，将JSON中需要的字段提取出来，保存为基本类型并存储为列式存储。

🎯

关键要点

AWS Athena 支持多种数据格式，包括 CSV 和 JSON。
CSV 文件中的某些字段可能是 JSON 字符串，处理这些数据需要特定的方法。
使用 json_extract 函数可以实时解析 JSON，但会增加资源消耗和延迟。
建立中间表可以提高性能和降低成本，但需要额外的自动化过程。
使用 with 关键字可以简化查询语法，适合小数据量的情况。
三种处理方式的性能和成本各有优劣，选择应根据具体场景。
在某些情况下，建议提取 JSON 中需要的字段并存储为基本类型，以提高处理效率。

🏷️

标签

AWS Athena CSV文件 JSON数据 athena csv json json_extract函数中间表

➡️

继续阅读

数据显示：世界杯直播观看量比2022年增长473%
Everyone TV 公布的 Barb 收视数据显示，通过宽带观看 2026 年 FIFA 世界杯的人数显著增加，凸显了英国持续向互联网电视转型。 Ba...
涛思数据TDengine升级为AI原生工业数据平台
（全球TMT 2026年07月22日讯）涛思数据宣布TDengine产品重大升级，从高性能时序数据库正式演进为 […]
澳鹏数据已连续八届深度参与世界人工智能大会
(全球TMT 2026年07月21日讯)2026年7月17日至20日，2026世界人工智能大会暨人工智能全球治 […]
瀚高股份携新一代智能数据基座平台HigoBase参展WAIC 2026
(全球TMT 2026年07月21日讯)7月17日至20日，第八届世界人工智能大会（WAIC 2026）在上海 […]
Building multi-Region resiliency for AWS CloudFormation custom resource deployment
AWS CloudFormation is the foundational tool of infrastructure-as-code for tho...
GitHub Increased Instant Navigation from 4% to 22% by Rethinking Client Side Architecture
GitHub redesigned GitHub Issues navigation using a client-side architecture t...