pyspark中怎么读取hdfs数据

lewis 6年前 (2020-01-21) 阅读数 21 #网络运维

文章标签 hdfs

在pyspark中读取HDFS数据可以通过以下步骤实现：

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Read HDFS Data") \
    .getOrCreate()

df = spark.read.csv("hdfs://<namenode>:<port>/path/to/file.csv")

其中，"hdfs://:/path/to/file.csv"是HDFS文件的路径，需要替换为实际的路径。

df.printSchema()
df.show()

spark.stop()

通过以上步骤，就可以在pyspark中读取HDFS数据了。

本文仅代表作者观点，不代表米安网络立场。

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。