Spark通过DAG计算模型减少磁盘I/O,优化shuffle过程,并采用多线程模型降低任务启动时间,因此比MapReduce更快。Spark适合迭代计算,而MapReduce因多进程模型启动开销大。
本文介绍了 md5 算法的计算过程,包括数据填充和分组计算迭代。数据填充包括在数据后面拼接一个 int64 类型的数据,使得填充后的长度是 64(字节) 的倍数。分组计算迭代包括将每个分组按照每64字节进行拆分,然后进行4组不同的计算规则,每组规则计算16次,共16*4轮迭代计算。最后,将得到4个经过很多次迭代的 int 数字,转为16进制输出即可。
完成下面两步后,将自动完成登录并继续当前操作。