spark为什么比mapreduce快?

💡 原文中文,约1000字,阅读约需3分钟。
📝

内容提要

Spark比MapReduce快的原因有:DAG计算模型减少磁盘I/O次数,加快shuffle速度,支持数据缓存,采用多线程模型。

🎯

关键要点

  • Spark和MapReduce都基于内存计算,但Spark的速度并非仅因这一点。
  • DAG计算模型减少了磁盘I/O次数,而不是shuffle次数。
  • DAG可以连续进行多个map和reduce操作,减少落盘次数。
  • Spark在shuffle时优化了排序,只有部分场景需要排序,从而加快了shuffle速度。
  • Spark支持数据缓存,减少了重复计算的时间,适合迭代计算的机器学习算法。
  • MapReduce采用多进程模型,Spark采用多线程模型,后者减少了任务启动的时间开销。
➡️

继续阅读