如何使用spark过滤hive中的记录

wmomyfyw  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(375)

为什么刺痛没有被比较?
我的意见是-

+-------+
|      y|
+-------+
| ""no""|
| ""no""|
| ""no""|
|""yes""|
| ""no""|
| ""no""|
| ""no""|
| ""no""|
|""yes""|
| ""no""|
| ""no""|
| ""no""|
| ""no""|
|""yes""|
| ""no""|
| ""no""|
+-------+

我在质疑-

sqlContext.sql("select count(y) from dummy where y='yes'").show()

输出为-

+---+
|_c0|
+---+
|  0|
+---+
``` `y` 在ddl中声明为字符串类型
u7up0aaq

u7up0aaq1#

你应该试试这个:

sqlContext.sql("select count(y) from dummy where y='\"\"yes\""'").show()

请注意,您的数据 ""yes"" 不仅仅是 yes .
您仍然需要清理数据:)
或者这样做:

sqlContext.sql("select count(y) from dummy where y like '%yes%'").show()

相关问题