如何在pyspark中使用“where not exists”sql条件？

ia2d9nvy 于 2021-06-27 发布在 Hive

关注(0)|答案(2)|浏览(600)

我在配置单元上有一个表，我正在尝试在该表中插入数据。
我正在从sql获取数据，但我不想插入已存在于配置单元表中的id。我试着使用相同的条件，比如where not exists。我用的是Pypark的气流。

Hive python pyspark airflow pyspark-sql

来源：https://stackoverflow.com/questions/54550161/how-can-i-use-where-not-exists-sql-condition-in-pyspark

2条答案

按热度按时间

6yoyoihd1#

这个 exists spark中不存在运算符，但有2个联接运算符可以替换它： left_anti 以及 left_semi .
例如，如果要插入Dataframe df 在Hive桌上 target ，您可以执行以下操作：

new_df = df.join(
    spark.table("target"),
    how='left_anti',
    on='id'
)

然后你写 new_df 在你的table上。 left_anti 允许您仅保留不满足连接条件的行（相当于 not exists ). 相当于 exists 是 left_semi .

赞(0）回复(0）举报 2021-06-27

r8xiu3jd2#

我认为星火不存在这样的属性。我认为你可以使用两种方法：
解决方法 UNIQUE condition（典型的关系数据库）：在尝试插入（in）时使用这种方式 append 模式）一个已经存在的记录，您将得到一个可以正确处理的异常。
读你想写的表格， outer join 它包含要添加到上述表中的数据，然后将结果写入 overwrite mode （但我认为第一种解决方案的性能可能更好）。
更多细节请随时询问

赞(0）回复(0）举报 2021-06-27

我来回答

如何在pyspark中使用“where not exists”sql条件？

2条答案

相关问题

热门标签

最新问答