我有一个PyparkDataframe:
NameAgeUserNamePasswordJoe34NullAlice21NullUser1Pass1NullUser2Pass2
从上面的dataframe中,我想通过查找空值列来创建2个这样的dataframe,不知何故:
姓名Joe34Alica21
用户名密码User1Pass1User2Pass2
有没有办法做到这一点?
“source”目录下的json文件示例:
{
"name": "joe",
"age": 31
}
{
"name": "alica",
"age": 21
}
{
"username": "user1",
"password": "pass1"
}
{
"username": "user2",
"password": "pass2
}
代码:
conf = SparkConf().setMaster("local").setAppName("Test")
spark = SparkSession \
.builder \
.config(conf=conf) \
.getOrCreate()
json_data = spark.read.json("source")
2条答案
按热度按时间rm5edbpk1#
如果你总是有相同的固定数量的列,我只会涵盖所有的情况
h79rfbju2#
你可以简单地使用
select
+dropna()
: