小红花·文摘

Spark通过DAG计算模型减少磁盘I/O，优化shuffle过程，并采用多线程模型降低任务启动时间，因此比MapReduce更快。Spark适合迭代计算，而MapReduce因多进程模型启动开销大。