Dataframe 中每列的pyspark最大字符串长度

ljsrvy3e 于 2023-01-01 发布在 Spark

关注(0)|答案(1)|浏览(257)

我正在数据库中尝试此操作。请让我知道需要导入的pyspark库以及在Azure数据库pyspark中获取以下输出的代码
示例：-输入 Dataframe ：-

|     column1     |    column2    | column3  |  column4  |
| a               | bbbbb         | cc       | >dddddddd |
| >aaaaaaaaaaaaaa | bb            | c        | dddd      |
| aa              | >bbbbbbbbbbbb | >ccccccc | ddddd     |
| aaaaa           | bbbb          | ccc      | d         |

输出 Dataframe ：-

| column  | maxLength |
| column1 |        14 |
| column2 |        12 |
| column3 |         7 |
| column4 |         8 |

pyspark

来源：https://stackoverflow.com/questions/64656561/pyspark-max-string-length-for-each-column-in-the-dataframe

1条答案

按热度按时间

kx7yvsdv1#

>>> from pyspark.sql import functions as sf
>>> df = sc.parallelize([['a','bbbbb','ccc','ddd'],['aaaa','bbb','ccccccc', 'dddd']]).toDF(["column1", "column2", "column3", "column4"])
>>> df1 = df.select([sf.length(col).alias(col) for col in df.columns])
>>> df1.groupby().max().show()
+------------+------------+------------+------------+
|max(column1)|max(column2)|max(column3)|max(column4)|
+------------+------------+------------+------------+
|           4|           5|           7|           4|
+------------+------------+------------+------------+

然后使用此link来融化先前的 Dataframe

赞(0）回复(0）举报 2023-01-01

我来回答

Dataframe 中每列的pyspark最大字符串长度

1条答案

相关问题

热门标签

最新问答