我正在尝试将JSON字符串转换为字符串。我不能这样做。
import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("MyApp") \
.getOrCreate()
sc=spark.sparkContext
some_json_string = """
[
{"id":1, "name":"test1"},
{"id":2, "name":"test2"}
{"id":3, "name":"test3"}
]
"""
df = spark.read.option("multiLine","true").json(sc.parallelize(some_json_string))
df.printSchema()
df.show()
字符串
我得到的错误
root
|-- _corrupt_record: string (nullable = true)
+---------------+
|_corrupt_record|
+---------------+
| [|
| {|
| "|
| i|
| d|
| "|
| :|
| 1|
| ,|
| "|
| n|
| a|
| m|
| e|
| "|
| :|
| "|
| t|
| e|
| s|
+---------------+
only showing top 20 rows
型
如何将其转换为PySpark框架?
我也试过:
的数据
1条答案
按热度按时间weylhg0b1#
基于this question,您必须将JSON字符串作为列表传递,如下所示:
df = spark.read.json(sc.parallelize([newJson]))
你的新代码应该是:
字符串