Yelp发布了管理大规模S3服务器访问日志的蓝图

Yelp发布了管理大规模S3服务器访问日志的蓝图

💡 原文英文,约700词,阅读约需3分钟。
📝

内容提要

Yelp构建了高效的Amazon S3访问日志处理管道,通过将日志压缩为Parquet格式,实现了85%的存储减少和更便捷的查询。该系统支持调试、成本分析和数据清理,展示了大规模对象级日志记录的可行性,为其他公司提供了参考架构。

🎯

关键要点

  • Yelp构建了高效的Amazon S3访问日志处理管道,克服了传统的原始日志存储和高容量查询的限制。
  • Yelp将每日生成的数TB访问日志转换为紧凑的Parquet格式,存储减少约85%,对象数量减少99.99%。
  • 该系统支持调试、成本分析和数据清理,能够快速查找权限调试、成本归属、事件调查和数据保留分析。
  • 架构利用AWS Glue Data Catalog管理多个AWS账户的模式,结合定时批处理、Lambda函数和基于分区投影的表进行自动化日志摄取。
  • Yelp的工作表明,S3上的对象级日志记录可以高效且可操作地管理,为其他公司提供了参考架构。
  • Upsolver和AWS等其他平台也提供了类似的S3访问日志处理架构,简化了日志处理和查询。
  • Druid和Presto/Trino等项目常用于大规模日志或事件数据湖的查询引擎,支持列式格式的日志转换。
  • 对于需要近实时搜索/警报的组织,AWS提供了将S3服务器访问日志摄取到OpenSearch的模式,适用于安全和合规监控。

延伸问答

Yelp是如何处理Amazon S3访问日志的?

Yelp通过构建高效的处理管道,将每日生成的数TB访问日志转换为紧凑的Parquet格式,减少存储使用约85%。

Yelp的日志处理系统有哪些主要功能?

该系统支持调试、成本分析和数据清理,能够快速查找权限调试、成本归属和事件调查。

Yelp的架构如何管理多个AWS账户的日志?

Yelp利用AWS Glue Data Catalog管理多个AWS账户的模式,结合定时批处理和Lambda函数进行自动化日志摄取。

Yelp的日志处理方法对其他公司有什么启示?

Yelp的工作表明,S3上的对象级日志记录可以高效且可操作地管理,为其他公司提供了参考架构。

Yelp如何确保日志的高效查询?

Yelp通过将原始日志压缩为Parquet格式,使得查询更为便捷,并使用工具如Amazon Athena进行分析。

AWS提供了哪些与Yelp类似的日志处理架构?

AWS提供了使用Glue作业处理S3访问日志的架构,支持日志的分区、格式化和查询,类似于Yelp的处理方式。

➡️

继续阅读