spark中怎么做数据清洗

lewis 2020-01-28 28次阅读

在Spark中进行数据清洗通常包括以下几个步骤：

val cleanedData = rawData.na.drop()

val cleanedData = rawData.dropDuplicates()

val cleanedData = rawData.withColumn("age", col("age").cast(IntegerType))

val cleanedData = rawData.filter(col("age") > 0)

val cleanedData = rawData.withColumn("name", trim(col("name")))

通过以上步骤，可以对数据进行清洗，使其符合分析需求。

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。