Spark中的Shuffle是指什么

lewis 6年前 (2020-02-05) 阅读数 17 #网络运维

文章标签 spark

在Spark中，Shuffle是指将数据重新分区并重新分发到不同的节点上进行处理的过程。当Spark需要对数据进行聚合、排序或连接等操作时，可能需要对数据进行重新分区以确保在不同节点上进行并行计算。这个过程就是Shuffle。

Shuffle过程包括三个主要步骤：

Shuffle是Spark中的一个开销较大的操作，因为它涉及到数据的传输和合并，可能会导致大量的网络通信和磁盘IO。因此，在Spark编程中，尽量减少Shuffle操作的次数是提高性能的重要手段之一。

本文仅代表作者观点，不代表米安网络立场。

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。