使用pyspark直接从hdfs加载大数据

js4nwp54 于 2021-05-29 发布在 Spark

关注(0)|答案(1)|浏览(438)

我直接从数据库中获取数据，大约有5-12百万的数据。当我试图把它转换成PandasDataframe来做分析的时候。由于音量太大，它一直在崩溃。
举个例子

df1 = spark.sql("select * from database.table")
sample = df1.toPandas() ## this is where it wont execute

我读到一些人建议使用dask和chunksize。但这是作为csv读取，然后转换成一个Dataframe，我从数据库直接获取。有没有一种有效的方法可以在很短的时间内将这些数据作为Dataframe加载？

1条答案

使用函数的最大问题 toPandas() 将所有数据加载到驱动程序。就像用一个老学校 collect() .
如果你想使用Pandas图书馆的档案，我建议你使用考拉，并检查它是否适合你。koalas是一个在后台转换apachespark代码中函数的库。所以也许这对你有帮助。