我直接从数据库中获取数据,大约有5-12百万的数据。当我试图把它转换成PandasDataframe来做分析的时候。由于音量太大,它一直在崩溃。
举个例子
df1 = spark.sql("select * from database.table")
sample = df1.toPandas() ## this is where it wont execute
我读到一些人建议使用dask和chunksize。但这是作为csv读取,然后转换成一个Dataframe,我从数据库直接获取。有没有一种有效的方法可以在很短的时间内将这些数据作为Dataframe加载?
1条答案
按热度按时间nuypyhwy1#
使用函数的最大问题
toPandas()
将所有数据加载到驱动程序。就像用一个老学校collect()
.如果你想使用Pandas图书馆的档案,我建议你使用考拉,并检查它是否适合你。koalas是一个在后台转换apachespark代码中函数的库。所以也许这对你有帮助。