Sekyoro的博客小屋 ·

从零开始大数据

💡 原文中文，约36300字，阅读约需87分钟。

📝

内容提要

大数据技术通过采集、存储和分析海量数据，广泛应用于推荐系统、金融和医疗等领域。其特点包括数据量大、处理速度快、多样性、低价值密度和真实性。大数据技术起源于Google的GFS、MapReduce和BigTable，随后Hadoop和Spark等框架的出现推动了大数据生态的发展。

🎯

大数据技术通过采集、存储和分析海量数据，广泛应用于推荐系统、金融和医疗等领域。
大数据的5V特征包括：数据量大（Volume）、处理速度快（Velocity）、多样性（Variety）、低价值密度（Value）和真实性（Veracity）。
大数据技术起源于Google的GFS、MapReduce和BigTable，Hadoop和Spark等框架推动了大数据生态的发展。
Hadoop包括HDFS和MapReduce，支持大规模数据存储和计算。
MapReduce的操作流程包括输入分片、映射、混洗与排序、归约和输出结果。
Spark通过内存计算和DAG优化，提升了大数据处理的效率，逐渐替代MapReduce。
Flink是一个开源的分布式流处理引擎，支持实时和离线数据流处理。
HDFS通过数据块存储和冗余备份实现大容量、高速、可靠的数据存储。
NoSQL数据库如HBase为海量数据存储提供了灵活的解决方案。
流式计算框架如Storm和Spark Streaming用于实时数据处理。
Zookeeper提供分布式系统的数据一致性服务，确保多台服务器的数据状态一致。
推荐算法如基于用户的协同过滤和基于商品的协同过滤用于个性化推荐。
互联网运营数据指标包括新增用户数、用户留存率、活跃用户数、转化率等。
A/B测试和灰度发布是优化产品特性和用户体验的重要手段。

❓

大数据的5V特征包括：数据量大（Volume）、处理速度快（Velocity）、多样性（Variety）、低价值密度（Value）和真实性（Veracity）。

Hadoop主要使用磁盘存储数据，处理速度较慢，而Spark优先使用内存进行数据处理，速度更快且支持更复杂的计算任务。

MapReduce的操作流程包括五个阶段：输入分片、映射、混洗与排序、归约和输出结果。

流式计算是对实时产生的数据进行即时处理，常用的框架包括Storm、Spark Streaming和Flink。

大数据技术起源于Google的GFS、MapReduce和BigTable三篇论文，这些技术奠定了大数据处理的基础。

分布式系统中的数据一致性可以通过Zookeeper等工具实现，Zookeeper使用ZAB算法确保多台服务器的数据状态一致。

🏷️

图达通在北京车展展示全矩阵激光雷达及感知方案
（全球TMT2026年4月24日讯）2026北京国际汽车展览会开幕，图达通展示全矩阵激光雷达及感知方案。图达通 […]
约束或自由：AI 工具化的两种答案
大模型在对话文本中表现优异，但缺乏实际操作能力。为实现AI的实际应用，需要赋予其行动能力，主要有两种技术路线：MCP和Skills。MCP注重标准化和安全...
思享无限2025财年营收为人民币12.416亿元
（全球TMT2026年4月24日讯）思享无限控股有限公司对外公布截至2025年12月31日财政年度财务业绩。2 […]
威联通科技推出全新L3 Lite网管型100GbE交换机
威联通科技推出QSW-M7230-2X4F24T L3 Lite网管型100GbE交换机，适用于企业IT架构升级和高性能存储，支持多种速率端口、无损网络、...
Ubuntu 26.04 LTS 发布，支持到 2041 年，附升级方法
Ubuntu 26.04 LTS（坚毅浣熊）发布，提供5年支持及额外安全更新。优化了CPU、GPU和NPU，支持TPM全盘加密，并重写部分组件以增强AI开...
AWS 收购对话式 AI 公司 NLX，Amazon Connect 部署周期从数月压缩至数周
亚马逊云科技（AWS）宣布将对话式AI平台NLX整合进Amazon Connect，实现无代码可视化设计，显著缩短AI客户体验的部署周期。这一整合提升了A...