从hdfs读取csv到pysparkDataframe的速度太慢

lh80um4z  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(266)

我开发了一个spark hdfs集群,除了相应的spark master和namenode之外,还包含(5个worker和5个datanode)。
我在pyspark中使用jupyter笔记本编程,这个笔记本是用 --executor-memory 30G --driver-memory 20G . 当我试图将一个348mb的csv文件从我的hdfs加载到一个pysparkDataframe时,问题就来了。15秒
我觉得这个小文件要花很多时间。我使用的代码是:

sqlContext = SQLContext(sc)
df1 = sqlContext.read.load("hdfs://namenode:8020/user/***/*****.csv", format='com.databricks.spark.csv',
header='true',
sep=';',
inferSchema='true')

我考虑过将其加载到rdd中,但由于Dataframe是为此而开发的,所以我认为它更适合。此外,加载这个csv后,我必须加入另一个csv,它只是一个列(20mb)。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题