我有一个pyspark。
task1 = (text.filter(lambda x: len(x)>0 )) # to filter empty lines
task1.collect()
我的目标是筛选出此文本片段中以“url”开头的行:
['url:http://www.nytimes.com/2016/06/30/sports/baseball/washington-nationals-max-scherzer-baffles-mets-completing-a-sweep.html华盛顿-尽管大都会队在进攻上有困难,但上赛季上半段的出色投球让他们保持了良好的状态。
如何在pyspark语法中轻松实现这一点?
2条答案
按热度按时间1l5u6lss1#
问题需要样本输入和输出。我假设提供的数据是表中的行。如果情况并非如此,请在澄清后更改答案。如果是,;
说数据是;
让我们使用
filter
沿着PySpark expr()
; 用于在 Dataframe 中执行类似sql的表达式的sql函数6qftjkof2#
你可以使用正则表达式