sparkDataframe筛选器问题

uelo1irk 于 2021-05-29 发布在 Spark

关注(0)|答案(2)|浏览(452)

来自这里的sql背景。。我在用 df1 = spark.read.jdbc 将数据从azure sql加载到Dataframe。我正在尝试筛选数据以排除符合以下条件的行：

df2 = df1.filter("ItemID <> '75' AND Code1 <> 'SL'")

Dataframe最终是空的，但当我运行等效的sql时，它是正确的。当我把它改成

df2 = df1.filter("ItemID**=**'75' AND Code1**=**'SL'")

它生成我要过滤掉的行。
删除符合条件的行以便将它们推送到sql server的最佳方法是什么？谢谢您

DataFrame apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/62584430/spark-dataframe-filter-issue

2条答案

按热度按时间

e4yzc0pl1#

在sql世界里， <> 手段 Checks if the value of two operands are equal or not, if values are not equal then condition becomes true. 在sparksql中，它的等价物是 != . 因此，过滤器中的sql条件-


# A != B -> TRUE if expression A is not equivalent to expression B; otherwise FALSE

df2 = df1.filter("ItemID != '75' AND Code1 != 'SL'")
``` `=` 在sparksql中的含义与ansisql相同

df2 = df1.filter("ItemID = '75' AND Code1 = 'SL'")

赞(0）回复(0）举报 2021-05-29

gcxthw6b2#

使用 & 操作员 != 在Pypark。 <> 不推荐使用python3。 Example: ```
df=spark.createDataFrame([(75,'SL'),(90,'SL1')],['ItemID','Code1'])

df.filter((col("ItemID") != '75') & (col("code1") != 'SL') ).show()

or using negation

df.filter(~(col("ItemID") == '75') & ~(col("Code1") == 'SL') ).show()

+------+-----+

|ItemID|Code1|

+------+-----+

| 90| SL1|

+------+-----+

赞(0）回复(0）举报 2021-05-29

我来回答

sparkDataframe筛选器问题

2条答案

or using negation

+------+-----+

|ItemID|Code1|

+------+-----+

| 90| SL1|

+------+-----+

相关问题

热门标签

最新问答