如何使用spark scala UDF函数将文本文件转换为spark Dataframe

ve7v8dk2  于 2023-08-05  发布在  Scala
关注(0)|答案(1)|浏览(125)

我有一个输入数据如下:

id###name##salary#dept
1##John#10000########IT
2####Mindhack Diva#20000########IT
3####Michel#30000########IT
4###Ryan#40000########IT
5####Sahoo#10000########IT

字符串


的数据
如何使用spark scala将文本文件转换为dataframe?
我需要像下面的dataframe输出,任何人都可以请帮助我在这方面:


62lalag4

62lalag41#

PySpark

我知道如何通过pyspark得到结果,这可能会帮助你或没有。

import re

rdd = sc.textFile('test.txt').map(lambda r: re.split('[#]+', r))
cols = rdd.first()

df = spark.createDataFrame(rdd.filter(lambda r: r != cols)).toDF(*cols)
df.show(truncate=False)

+---+-------------+------+----+
|id |name         |salary|dept|
+---+-------------+------+----+
|1  |John         |10000 |IT  |
|2  |Mindhack Diva|20000 |IT  |
|3  |Michel       |30000 |IT  |
|4  |Ryan         |40000 |IT  |
|5  |Sahoo        |10000 |IT  |
+---+-------------+------+----+

字符串

相关问题