今天我发现可以通过布尔索引过滤pysparkDataframe:
In [3]: df.show()
+-----+---+
|name1| v|
+-----+---+
| john|1.0|
| sam|4.0|
| meh|3.0|
+-----+---+
In [6]: df[df['v']>2.0].show()
+-----+---+
|name1| v|
+-----+---+
| sam|4.0|
| meh|3.0|
+-----+---+
一种常见的方法是使用Pypark的 filter
功能,例如spark-选择位置或过滤?。但上述语法是否有文档记录并得到官方支持?我喜欢这种语法,因为它与pandas中的语法一致(在pandas中 filter
功能完全意味着其他东西)。
暂无答案!
目前还没有任何答案,快来回答吧!