木鸟杂记 ·

数据处理的大一统——从 Shell 脚本到 SQL 引擎

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

本文介绍了数据处理的不同系统和方法，包括Unix管道、GFS和MapReduce、Spark和关系型数据库。这些系统都遵循了统一的数据集和可组合的算子的抽象。

🎯

关键要点

福特T型汽车的电机装配通过流水线思想提升了效率。
数据处理的核心概念是标准化的数据集合和可组合的数据变换。
Unix管道允许程序通过标准输入输出进行协同工作，体现了高内聚和低耦合的特点。
Unix管道的流式处理使得多个程序可以并行执行，但限制了表达能力。
MapReduce是谷歌提出的用于大规模集群并行数据处理的算法，GFS是其配套的分布式文件系统。
MapReduce的三个阶段是Map、Shuffle和Reduce，支持复杂的数据处理需求。
Spark通过引入RDD（弹性分布式数据集）解决了MapReduce中每次数据集都要落盘的问题。
关系型数据库提供强大的SQL查询语言，支持高效的数据查询和灵活的数据处理。
关系型数据库的基本单位是关系（表），用户可以施加各种关系代数算子。
数据处理系统的统一性体现在标准化的数据集和可组合的算子上。

🏷️

继续阅读

【独家专访】当下育碧还剩下的杀手锏，可能是这套“黑科技”自研引擎
也证明了“画质”“优化”可以兼得。当下游戏里的天气系统能做到多“真实”？当一阵风从海面上吹来，带动起轻微的浪花。岸边的树木枝叶颤动，原本轻轻飘落的小雨和樱...
【Linux 网络子系统深度拆解】软中断与 ksoftirqd：网络包处理的调度引擎
本文探讨了Linux内核中的软中断机制，重点分析了网络数据包的处理。软中断是一种不可抢占的延迟执行机制，主要用于网络和块设备。文章讨论了软中断的调度、执行...
线段树与树状数组：区间问题的优雅武器
本文讨论了区间问题的高效解决方案，介绍了树状数组和线段树两种数据结构。树状数组适合点修改和区间查询，复杂度为O(log n)；线段树支持更复杂的操作如区间...
【Linux 网络子系统深度拆解】路由子系统深度拆解：FIB、策略路由与路由缓存
本文深入探讨了Linux内核中IP路由的实现，包括发包和收包的路径、路由表结构、最长前缀匹配算法、策略路由机制、ECMP负载均衡及现代nexthop对象管...
聊聊为什么我要花这么大精力，带大家手写 Agent Harness？
Tony Bai在新专栏《从0开始构建Agent Harness》中探讨了手写底层Agent Harness引擎的必要性。他指出，传统框架无法满足工业级A...
联想Legion Go S成为RAMageddon的最新受害者
联想的Legion Go S手持游戏机价格大幅上涨，SteamOS版本从829.99美元涨至1579.99美元，Windows版本涨至1679.99美元。...

数据处理的大一统——从 Shell 脚本到 SQL 引擎

内容提要

关键要点

标签

继续阅读