pyspark中有2个Dataframe,我使用2个sparksql查询从配置单元数据库加载。当我尝试使用 df1.join(df2,df1.id_1=df2.id_2) ,需要很长时间。当我调用join时,spark是否重新执行df1和df2的sql?底层数据库是配置单元
df1.join(df2,df1.id_1=df2.id_2)
uplii1fm1#
pyspark将比使用scala慢,因为数据序列化发生在python进程和jvm之间,并且工作是在python中完成的。
1条答案
按热度按时间uplii1fm1#
pyspark将比使用scala慢,因为数据序列化发生在python进程和jvm之间,并且工作是在python中完成的。