小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
hadoop Yarn的 RMStateStore对比分析

本文详细比较了FileSystemRMStateStore、LeveldbRMStateStore和ZKRMStateStore,涵盖存储后端、架构类型、一致性模型、核心功能和HA支持等方面。三者各有优缺点,适用于不同场景,选择时需综合考虑基础设施和运维复杂度。

hadoop Yarn的 RMStateStore对比分析

小令童鞋
小令童鞋 · 2026-04-02T15:35:04Z
3.3.1-3.4.1兼容性分析

Hadoop 3.4.1相较于3.3.1版本,主要改进包括AWS SDK升级、ABFS增强、HDFS新特性及YARN改进,同时更新了安全性和依赖版本,移除了多个功能。升级时需注意依赖兼容性,特别是Protocol Buffers的重大变化。

3.3.1-3.4.1兼容性分析

小令童鞋
小令童鞋 · 2026-03-15T05:57:16Z
优步的混合云数据:工程师如何解决极大规模复制挑战

优步工程团队改进了数据复制平台,日处理超过1PB数据,解决了快速增长的工作负载扩展挑战。HiveSync团队基于Hadoop的Distcp框架优化了多PB工作负载,提升了复制效率和可靠性,支持云迁移和数据湖模型。通过并行化任务和改进资源管理,HiveSync实现了300PB的增量复制,并计划将这些改进作为开源补丁贡献给社区。

优步的混合云数据:工程师如何解决极大规模复制挑战

InfoQ
InfoQ · 2026-03-02T15:00:00Z
站在巨人的肩膀上:支撑现代人工智能的传统基础设施

现代人工智能依赖于传统基础设施,如Hadoop、Kafka和Elasticsearch等开源项目。这些项目虽然不是直接的AI应用,但为AI的发展提供了数据存储、处理和实时流转的基础支持。

站在巨人的肩膀上:支撑现代人工智能的传统基础设施

云原生
云原生 · 2026-02-08T08:00:00Z
如何在Python中使用ORC文件格式 - 带示例的指南

ORC文件是一种为Hadoop设计的列式存储格式,适合大数据分析。使用Python的PyArrow库,可以高效读取、写入和处理ORC文件,支持压缩和索引,优化查询性能。

如何在Python中使用ORC文件格式 - 带示例的指南

freeCodeCamp.org
freeCodeCamp.org · 2026-01-14T01:24:44Z
从零开始大数据

大数据技术通过采集、存储和分析海量数据,广泛应用于推荐系统、金融和医疗等领域。其特点包括数据量大、处理速度快、多样性、低价值密度和真实性。大数据技术起源于Google的GFS、MapReduce和BigTable,随后Hadoop和Spark等框架的出现推动了大数据生态的发展。

从零开始大数据

Sekyoro的博客小屋
Sekyoro的博客小屋 · 2026-01-10T07:44:55Z
Spotify如何构建其数据平台以理解14万亿数据点

Spotify的数据平台从单一团队管理Hadoop集群演变为多产品团队,支持海量数据的收集、处理和管理,确保数据安全可靠,满足业务需求,促进产品实验与决策。

Spotify如何构建其数据平台以理解14万亿数据点

ByteByteGo Newsletter
ByteByteGo Newsletter · 2025-11-11T16:31:32Z
Pinterest通过内部调度系统实现Hadoop集群的自动扩展和迁移

Pinterest推出了Hadoop控制中心(HCC),旨在自动化管理Hadoop集群的扩展和迁移,简化操作复杂性。HCC通过统一命令行接口实现实时调整,确保数据完整性和服务连续性,并计划增加自动修复和生命周期管理功能,以提升基础设施的自主性和弹性。

Pinterest通过内部调度系统实现Hadoop集群的自动扩展和迁移

InfoQ
InfoQ · 2025-07-31T10:00:00Z
从Hadoop到Kubernetes:Pinterest在AWS EKS上的可扩展Spark架构

Pinterest将Hadoop数据平台替换为基于Kubernetes的Moka系统,运行Spark于AWS EKS。Moka支持容器化作业隔离和ARM实例,提升调度效率并降低基础设施成本。Pinterest还开发了新服务,使用Apache YuniKorn进行调度,迁移存储至S3,并整合Apache Celeborn以维持性能。Moka通过资源管理和动态优先级调度优化数据处理工作负载。

从Hadoop到Kubernetes:Pinterest在AWS EKS上的可扩展Spark架构

InfoQ
InfoQ · 2025-07-28T11:30:00Z
基于大模型和Spark的B站数据分析

本文介绍了基于Spark和Python的B站数据处理与分析实验,包括环境搭建、Hadoop和Spark安装、数据采集及代码组织,强调了AI工具在编程中的应用。

基于大模型和Spark的B站数据分析

厦大数据库实验室博客
厦大数据库实验室博客 · 2025-06-28T05:58:06Z
基于开源工具构建 EMR 数据分析平台(五)EMR 最佳实践

Amazon EMR 是一个托管的大数据集群平台,支持 Apache Hadoop 和 Spark,简化数据分析管理。它提供灵活的定价和集群规模调整,确保数据安全,支持多种管理界面。用户可选择不同版本和节点类型,以优化性能和成本,并支持自动扩缩容,适应各种工作负载需求。

基于开源工具构建 EMR 数据分析平台(五)EMR 最佳实践

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-05-30T00:38:49Z

本文介绍了在Linux系统中安装Hadoop、HBase、Spark等大数据软件的步骤,并提供编程实践指南,内容与《大数据技术原理与应用(第4版,高职版)》教材相关。

大数据软件安装和基础编程实践指南(2025年5月版)

厦大数据库实验室博客
厦大数据库实验室博客 · 2025-05-25T08:06:22Z
大数据分析应用程序开发

大数据是推动创新和商业智能的重要资产,涉及无法用传统方法处理的大型数据集。其特点包括数据量大、生成速度快、格式多样、可信度高和价值显著。常用技术有Hadoop、Spark和Kafka,编程语言包括Python和Java。开发大数据应用需定义数据源、选择工具、进行数据预处理和分析,同时需关注数据质量、可扩展性和安全性挑战。

大数据分析应用程序开发

DEV Community
DEV Community · 2025-05-07T21:31:27Z
大数据处理 - 案例研究 4 (Hadoop)

本文讨论了大数据处理的案例研究,重点介绍了Hadoop技术,作者分享了相关经验和见解。

大数据处理 - 案例研究 4 (Hadoop)

DEV Community
DEV Community · 2025-05-01T11:04:47Z
【Hadoop仿真】如何在仿真NodeManager中实现心跳

Hadoop项目通过构建大量虚假NodeManager节点,模拟ResourceManager的压力场景。NodeManager的主要功能包括向ResourceManager注册、初始化RPC和HTTP服务、发送心跳信息等。心跳是NodeManager与ResourceManager之间的核心功能,包含节点状态和资源信息。

【Hadoop仿真】如何在仿真NodeManager中实现心跳

小令童鞋
小令童鞋 · 2025-04-24T15:31:32Z
Hadoop Yarn的ResourceManager压测指南

Hadoop项目通过构建大量虚假节点(Fake NM)来模拟ResourceManager的压力,以优化性能。主要模块包括Fake NM和SLSRunner,分别负责容器管理和压力测试作业。配置文件需根据实际情况调整,运行后可进行性能测试。

Hadoop Yarn的ResourceManager压测指南

小令童鞋
小令童鞋 · 2025-04-13T10:35:50Z
将Hadoop工作负载迁移到AWS:从本地HDFS、Spark、Kafka和Airflow迁移到AWS S3、Iceberg和EMR

许多企业仍在使用本地Hadoop进行大数据处理,但面临高运营成本和可扩展性问题。本文提供了迁移到AWS S3、Apache Iceberg和EMR的六步指南,包括架构图、代码示例和最佳实践,以降低成本并提升性能。

将Hadoop工作负载迁移到AWS:从本地HDFS、Spark、Kafka和Airflow迁移到AWS S3、Iceberg和EMR

DEV Community
DEV Community · 2025-04-11T11:05:59Z
Hadoop的核心组件HDFS和MapReduce是如何运作的?

Hadoop是一个开源框架,专门用于处理大数据。其核心组件HDFS负责数据存储,MapReduce负责数据处理,二者通过主从架构和并行计算实现高可用性和容错性。Hadoop还可与Cassandra等数据库集成,增强数据处理能力。

Hadoop的核心组件HDFS和MapReduce是如何运作的?

DEV Community
DEV Community · 2025-03-11T21:31:15Z
Hadoop的核心组件HDFS和MapReduce是如何运作的?

Hadoop是一个开源框架,专为分布式存储和处理大数据设计。其核心组件HDFS用于存储大文件,MapReduce用于并行处理数据。HDFS通过主从架构确保数据可靠性,MapReduce通过并行计算提高处理速度,二者结合使Hadoop在大数据处理上高效灵活。

Hadoop的核心组件HDFS和MapReduce是如何运作的?

DEV Community
DEV Community · 2025-03-11T21:01:25Z
什么是Hadoop,它是如何高效处理大数据的?

在数字数据迅速增长的时代,管理大数据成为挑战。Apache Hadoop是一个开源框架,能够高效存储和处理大数据,具备分布式计算、可扩展性、容错性和数据本地化等优势,支持多种数据源和格式,是企业数据分析的重要工具。

什么是Hadoop,它是如何高效处理大数据的?

DEV Community
DEV Community · 2025-03-11T00:28:06Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码