从hdfs读取csv到pysparkDataframe的速度太慢

lh80um4z 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(266)

我开发了一个spark hdfs集群，除了相应的spark master和namenode之外，还包含（5个worker和5个datanode）。
我在pyspark中使用jupyter笔记本编程，这个笔记本是用 --executor-memory 30G --driver-memory 20G . 当我试图将一个348mb的csv文件从我的hdfs加载到一个pysparkDataframe时，问题就来了。15秒
我觉得这个小文件要花很多时间。我使用的代码是：

sqlContext = SQLContext(sc)
df1 = sqlContext.read.load("hdfs://namenode:8020/user/***/*****.csv", format='com.databricks.spark.csv',
header='true',
sep=';',
inferSchema='true')

我考虑过将其加载到rdd中，但由于Dataframe是为此而开发的，所以我认为它更适合。此外，加载这个csv后，我必须加入另一个csv，它只是一个列（20mb）。

hadoop hdfs python apache-spark csv

来源：https://stackoverflow.com/questions/44985488/too-slow-reading-csv-from-hdfs-into-pyspark-dataframe

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

从hdfs读取csv到pysparkDataframe的速度太慢

暂无答案！

相关问题

热门标签

最新问答