上述一组大数据处理过程也称为大数据PipeLine,流水线。Pipe这个词最早出现在UNIX操作系统中,一个程序的输出作为另一个程序的输入。对大数据处理过程而言,在流水线中每一步的并行问题主要就是
数据并行问题(data parallelism)。我们可以将数据并行简单地定义为对同一数据集的不同部分同时运行相同的函数。要达到这种数据并行,我们必须决定每步个并行计算的数据粒度,如WordCount中的Map的数据粒度是一行,shuffle and sort的数据粒度是单个键值对。你会发现每一步数据集的大小都减小了。