rdd到df的转换

fzwojiic 于 2021-07-14 发布在 Spark

关注(0)|答案(1)|浏览(467)

我是Pypark的新手。我的代码如下所示。我不知道为什么 df.collect() 正在显示 None 所有字符串值的值。

>> rdd = sc.parallelize([{'name': 'test', 'age': {"id": 326, "first_name": "Will", "last_name": "Cur"}}, 
      {'name': 'test2', 'age': {"id": 751, "first_name": "Will", "last_name": "Mc"}}])
>> rdd.collect()
[{'name': 'test', 'age': {'id': 326, 'first_name': 'Will', 'last_name': 'Cur'}}, {'name': 'test2', 'age': {'id': 751, 'first_name': 'Will', 'last_name': 'Mc'}}]
>> df = spark.createDataFrame(rdd)
>> df.collect()
[Row(age={'last_name': None, 'first_name': None, 'id': 326}, name='test'), Row(age={'last_name': None, 'first_name': None, 'id': 751}, name='test2')]

rdd python apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/67030415/rdd-to-df-conversion

1条答案

按热度按时间

x6492ojm1#

对于复杂的数据结构，spark可能很难从rdd推断模式，因此您可以提供一个模式来确保正确完成转换：

df = spark.createDataFrame(
    rdd, 
    'name string, age struct<id:int, first_name:string, last_name:string>'
)

df.collect()

# [Row(name='test', age=Row(id=326, first_name='Will', last_name='Cur')),

# Row(name='test2', age=Row(id=751, first_name='Will', last_name='Mc'))]

赞(0）回复(0）举报 2021-07-14

我来回答

rdd到df的转换

1条答案

相关问题

热门标签

最新问答