如何在谷歌云存储中读取avro文件作为json文本

cuxqih21  于 12个月前  发布在  其他
关注(0)|答案(1)|浏览(95)

我希望能够使用类似于“hdfs -text *.avro”的东西,但在谷歌云存储中读取JSON的avro文件。我将在Python脚本中解析JSON
我正在寻找一个gsutil命令的方式来读取avro文件作为json,类似于我们如何在hdfs

mspsb9vt

mspsb9vt1#

无法直接读取Avro文件

如何在Google Cloud Storage中将Avro文件读取为JSON文本:

1.在本地计算机上安装avro-tools命令。
1.运行以下gsutil命令:

gsutil cat gs://<bucket>/<path/to/avro/file.avro> | avro-tools tojson > <path/to/json/file.json>

这将从Google Cloud Storage读取Avro文件,将其转换为JSON,并将JSON输出写入指定的文件。
1.使用JSON解析器(如json模块)解析Python脚本中的JSON文件。
下面是一个解析JSON文件my-json-file.json的Python脚本示例:

import json

with open("my-json-file.json", "r") as f:
    json_data = json.load(f)

# Iterate over the JSON data and do something with it
for record in json_data:
    print(record)

相关问题