我使用的是Python2.6.6和spark 1.6.0。我有过这样的经历:
id | name | number |
--------------------------
1 | joe | 148590 |
2 | bob | 148590 |
2 | steve | 279109 |
3 | sue | 382901 |
3 | linda | 148590 |
每当我试着像 df2 = df.groupBy('id','length','type').pivot('id').agg(F.collect_list('name'))
,我得到以下错误 pyspark.sql.utils.AnalysisException: u"Aggregate expression required for pivot, found 'pythonUDF#93';"
为什么会这样?
1条答案
按热度按时间0g0grzrc1#
断然的。我使用sqlcontext来创建原始Dataframe。已更改为hivecontext。