使用pyspark解析非结构化数据

ecbunoof 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(451)

我是新来的。我试图用以下格式解析非结构化数据。
整个数据集都在一行中。
每一行/记录由一个特殊字符~$|分隔，记录的每一列由制表符分隔。
那么我如何解析它并将其转换为Dataframe呢？

Raj India 1000 ~$| John Canada 2000 ~$| Steve USA 3000 ~$| Jason USA 4000

apache-spark pyspark parsing raw-data

来源：https://stackoverflow.com/questions/62804386/parsing-unstructured-data-using-pyspark

1条答案

按热度按时间

kh212irz1#

使用 spark.read.text() 方法和选项保持您的自定义 lineSep ```
spark.read.option("lineSep", '~$|').text('').withColumn("value",regexp_replace(col("value"),'\n','')).show()

+------------------+

| value|

+------------------+

| Raj India 1000 |

| John Canada 2000 |

| Steve USA 3000 |

| Jason USA 4000|

+------------------+

一旦创建了Dataframe，就可以使用 `split` 函数对value column创建Dataframe的新列，使用 `.getItem` , `element_at` 功能。

赞(0）回复(0）举报 2021-05-27

我来回答

使用pyspark解析非结构化数据

1条答案

+------------------+

| value|

+------------------+

| Raj India 1000 |

| John Canada 2000 |

| Steve USA 3000 |

| Jason USA 4000|

+------------------+

相关问题

热门标签

最新问答