如何在PySpark中保存从URL获取的JSON数据？

cxfofazt 于 2022-11-01 发布在 Spark

关注(0)|答案(3)|浏览(183)

我已经从API获取了一些.json数据。

import urllib2
test=urllib2.urlopen('url') 
print test

如何将其保存为表格或数据框？我使用的是Spark 2.0。

pyspark

来源：https://stackoverflow.com/questions/41820977/how-to-save-json-data-fetched-from-url-in-pyspark

3条答案

按热度按时间

0yg35tkg1#

下面是我如何成功地将.json数据从web导入到df中：

from pyspark.sql import SparkSession, functions as F
from urllib.request import urlopen

spark = SparkSession.builder.getOrCreate()

url = 'https://web.url'
jsonData = urlopen(url).read().decode('utf-8')
rdd = spark.sparkContext.parallelize([jsonData])
df = spark.read.json(rdd)

赞(0）回复(0）举报 2022-11-01

elcex8rz2#

为此，您可以进行一些研究，并尝试使用sqlContext。以下是示例代码：

>>> df2 = sqlContext.jsonRDD(test)
>>> df2.first()

此外，请访问line并在此处查看更多信息，https://spark.apache.org/docs/1.6.2/api/python/pyspark.sql.html

赞(0）回复(0）举报 2022-11-01

rxztt3cl3#

除了Rakesh Kumar的回答之外，在spark 2.0中实现这一点的方法是：
http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#data-sources
例如，下面的代码基于JSON文件的内容创建一个DataFrame：


# spark is an existing SparkSession

df = spark.read.json("examples/src/main/resources/people.json")

# Displays the content of the DataFrame to stdout

df.show()

**请注意，**作为JSON文件提供的文件不是典型的JSON文件。每行必须包含一个独立的、自包含的有效JSON对象。有关详细信息，请参阅JSON行文本格式，也称为换行符分隔的JSON。因此，常规的多行JSON文件通常会失败。

赞(0）回复(0）举报 2022-11-01

我来回答

如何在PySpark中保存从URL获取的JSON数据？

3条答案

相关问题

热门标签

最新问答