我有一个大型数据集,有些列是字符串数据类型。由于打字错误,有些单元格没有值,但写在不同的风格(与小或大写字母,有或没有空格,有或没有括号,等等)。
我想计算所有列中所有这些值(不包括空值)的数量。示例数据集如下:
data = [("A", "None", 1), \
("A", "(None)", 2), \
("[None", "none", 3), \
("(none]", "[None]", 4), \
("A", "(none)", 5), \
("A", "(none", 6), \
("A", "none ", 7), \
(" NOne ", None, None), \
]
# Create DataFrame
columns= ["col_1", "col_2", "Number"]
df = spark.createDataFrame(data = data, schema = columns)
预期结果为:
{'col_1': 3, 'col_2': 7, 'Number': 0}
知道PySpark怎么做吗?
1条答案
按热度按时间jyztefdp1#
其逻辑是:
输出: