在第二个Dataframe中出现时过滤一个Dataframe皮斯帕克需要优雅的解决方案

cnh2zyt3 于 2021-07-13 发布在 Spark

关注(0)|答案(1)|浏览(295)

我有一个问题。我们有两个输入Dataframe-upper\u in和lower\u in，我们需要在df中的lower\u出现时过滤df中的upper\u行。这意味着，如果从上\u in开始的行在下\u in，则该行将写入新的df（uppper\u out）。如果从上\u-in到下\u-in的行不在下\u-in，则它将被写入其他df（下\u-out）
我的直截了当的解决方案：
迭代df中的上\u<---问题
检查内容窗体上\u是否在中的下\u
真-写入上\u输出
false-写入以降低输出

upper_columns = upper_input.collect()
lower_columns = lower_input.collect()

# investigate map method

upper_output = spark.createDataFrame(spark.sparkContext.emptyRDD(), upper_input.schema)
lower_output = spark.createDataFrame(spark.sparkContext.emptyRDD(), lower_input.schema)

for upper_row, lower_row in zip(upper_columns, lower_columns):

# check if content is the same in upper and lower row

    if upper_row[selected_columns[0][0]] == lower_row[selected_columns[0][1]]:
         row_to_append = spark.createDataFrame([upper_row], upper_input.schema)
         upper_output = upper_output.union(row_to_append)
         row_to_append.unpersist()
     else:
         row_to_append = spark.createDataFrame([upper_row], lower_input.schema)
         lower_output = lower_output.union(row_to_append)
         row_to_append.unpersist()

但我希望smth更优雅，而且不使用.collect（）函数。
理论上可以使用.map（）或.foreach（），但我们需要为df创建类似smth的.pop（）函数。
先谢谢你

DataFrame apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/66273638/filter-one-dataframe-on-occurences-in-second-dataframe-pyspark-elegant-solutio

1条答案

按热度按时间

n1bvdmb61#

你可以用 intersectAll 以及 exceptAll 检查 upper_in 在 lower_in :

upper_out = upper_in.intersectAll(lower_in)
lower_out = upper_in.exceptAll(lower_in)

或者，你可以做一个 left_semi 或者 left_anti 在所有列上联接：

upper_out = upper_in.join(lower_in, upper_in.columns, 'left_semi')
lower_out = upper_in.join(lower_in, upper_in.columns, 'left_anti')

如果要指定要检查的列列表，可以执行以下操作：

cols = ['Location']
upper_out = upper_in.join(lower_in, cols 'left_semi')
lower_out = upper_in.join(lower_in, cols, 'left_anti')

赞(0）回复(0）举报 2021-07-13

我来回答

在第二个Dataframe中出现时过滤一个Dataframe皮斯帕克需要优雅的解决方案

1条答案

相关问题

热门标签

最新问答