Linux 拨号vps windows公众号手机端

hive小文件产生的原因有哪些

lewis 5年前 (2020-01-31) 阅读数 7 #网络运维
文章标签 Hive

  1. 数据倾斜:在数据倾斜的情况下,部分数据会被写入到一个或少数几个分区中,导致这些分区中的文件数量较少,从而产生小文件。

  2. 数据写入频繁:如果数据写入频繁,会导致多次写入操作产生多个小文件。

  3. 数据压缩方式选择不当:如果选择了适用于大文件的压缩方式,对小文件进行压缩后会导致文件变得更小。

  4. 数据过滤不当:在数据过滤时,可能只选择了一小部分数据,这些数据量较小,写入文件时也会产生小文件。

  5. 大量小任务:如果在Hive中执行了大量的小任务,每个任务都会生成一个小文件。

  6. 数据倾斜:在数据倾斜的情况下,部分数据会被写入到一个或少数几个分区中,导致这些分区中的文件数量较少,从而产生小文件。

版权声明

本文仅代表作者观点,不代表米安网络立场。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门