💡
原文中文,约6300字,阅读约需15分钟。
📝
内容提要
Amazon EMR是云大数据解决方案,适用于PB级数据处理、交互分析和机器学习。EMR HBase on S3模式推出了托管的WAL workspaces功能,实现数据恢复。测试结果表明,开启WAL功能的EMR HBase on S3集群可以从托管的WAL workspace恢复数据。建议对数据一致性要求高的用户升级到高版本EMR并开启此功能。
🎯
关键要点
- Amazon EMR 是云大数据解决方案,适用于 PB 级数据处理、交互分析和机器学习。
- EMR HBase 有两种模式:EMR HBase on HDFS 和 EMR HBase on S3。
- WAL(Write Ahead Log)提供高并发、持久化的日志保存与回放机制,主要用于灾难恢复。
- EMR HBase on S3 模式在 EMR 6.15 版本之前,WAL 日志存储在 HDFS 上,数据恢复存在风险。
- EMR 6.15 版本后推出托管的 WAL workspaces 功能,支持数据恢复。
- 测试模拟 EMR 集群意外终止情况,比较开启和关闭 WAL 功能的数据一致性。
- 关闭 WAL 功能时,数据恢复不一致,部分数据丢失。
- 开启 WAL 功能时,数据恢复一致,完整保留 WAL 日志。
- 建议对数据一致性要求高的用户升级到高版本 EMR 并开启 WAL 功能。
➡️