我有 Dataframe :
d1 = [({'the town': 1, 'County Council s': 2, 'email':5},2),
({'Mayor': 2, 'Indiana': 2}, 4),
({'Congress': 2, 'Justice': 2,'country': 2, 'veterans':1},6)
]
df1 = spark.createDataFrame(d1, ['dct', 'count'])
df1.show()
ignore_lst = ['County Council s', 'emal','Indiana']
filter_lst = ['Congress','town','Mayor', 'Indiana']
我想写两个函数:第一个函数过滤不在ignore_list
中的dct
列的键,第二个函数过滤在filter_lst
中的键
因此,将有两列包含字典,这些字典的关键字由ignore_list
和filter_lst
过滤
2条答案
按热度按时间mfpqipee1#
这两个UDF应该足以满足您的情况:
to94eoyn2#
它可以使用map_filter在一行程序中完成:
完整示例: