pyspark Spark CSV阅读器-CSV最后一列中的JSON内容格式错误

d7v8vwbk 于 2023-11-16 发布在 Spark

关注(0)|答案(4)|浏览(150)

我在CSV文件中有数据，如下所示：

1,2,3,{col1:1,col2:2,col3:3}
1,2,3,{col1:2,col2:2,col3:4}
1,2,3,{col1:3,col2:3,col3:3}

字符串
使用Spark代码读取此数据，以在框架中以这种格式输出：

col1,col2,col3
1,2,3
2,2,4
3,3,3

型
我尝试了几种使用引号和自定义模式的方法。但是，我无法正确地将所有数据都包含在框架中。使用自定义模式，我能够读取如下所示的 df（在第一个“,“之后截断）：

c1,c2,c3,c4
1,2,3,{col1:1
1,2,3,{col1:2
1,2,3,{col1:3

型

pyspark

来源：https://stackoverflow.com/questions/75965713/spark-csv-reader-malformed-json-content-inside-csv-last-column

4条答案

按热度按时间

nle07wnf1#

这里的问题是，您的CSV分隔符也用于JSON列中，而没有对其进行转义或引用。最好的选择是要求您的源提供更好格式的CSV文件（或使用不同的分隔符）。
如果这不是一个选项，您可以在阅读文件后自己拆分文件。对于您的示例，可以如下所示完成。在这里，我们将CSV内容作为文本文件读取，并将其拆分到第4个逗号。从结果数组中，我们选择我们想要的列。

import pyspark.sql.functions as F
df = spark.read.text('data.csv')
cols_to_split = 4
splitted = F.split(F.col('value'), ',', limit=cols_to_split)
df.select([splitted[i].alias(f'col{i}') for i in range(cols_to_split)]).show()

字符串
输出量：

+----+----+----+--------------------+
|col0|col1|col2|                col3|
+----+----+----+--------------------+
|   1|   2|   3|{col1:1,col2:2,co...|
|   1|   2|   3|{col1:2,col2:2,co...|
|   1|   2|   3|{col1:3,col2:3,co...|
+----+----+----+--------------------+

型
请注意，您的真实的数据可能更复杂或结构不同，此解决方案可能不起作用。split 函数将正则表达式作为模式，因此您可以编写适合您的内容。
最后，请注意，自Spark >= 3.0以来，limit参数已被支持。

展开查看全部

赞(0）回复(0）举报 2023-11-16

w8f9ii692#

我认为你必须使用from_json函数。
定义JSON列的模式：

from pyspark.sql.functions import from_json
from pyspark.sql.types import StructType, StructField, IntegerType
json_schema = StructType(
    [
        StructField("col1", IntegerType()),
        StructField("col2", IntegerType()),
        StructField("col3", IntegerType()),
    ]
)

字符串

示例片段

将JSON字符串解析为结构

df = df.withColumn("c4", from_json("json_str", json_schema))

型

展开查看全部

赞(0）回复(0）举报 2023-11-16

de90aj5v3#

我遇到过类似的问题，当我使用 escape 选项时，它得到了解决。

df = spark.read.format('csv').options(header='True', delimiter=",", escape='"').load(path)

字符串

赞(0）回复(0）举报 2023-11-16

z4iuyo4d4#

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, from_json
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
spark = SparkSession.builder.appName("CSV Read Example").getOrCreate()
json_schema = StructType([
    StructField("col1", IntegerType()),
    StructField("col2", IntegerType()),
    StructField("col3", IntegerType())
])
df = spark.read.csv("path_to_your_file.csv")
df = df.withColumnRenamed("_c0", "c1")\
       .withColumnRenamed("_c1", "c2")\
       .withColumnRenamed("_c2", "c3")\
       .withColumnRenamed("_c3", "json_col")
df = df.withColumn("json_col", from_json("json_col", json_schema))
df = df.select(
    col("json_col.col1").alias("col1"),
    col("json_col.col2").alias("col2"),
    col("json_col.col3").alias("col3")
)
df.show()
spark.stop()

字符串

展开查看全部

赞(0）回复(0）举报 2023-11-16

我来回答

pyspark Spark CSV阅读器-CSV最后一列中的JSON内容格式错误

4条答案

相关问题

热门标签

最新问答