我正在努力将本地json文件转换成Parquet文件。每个文件都应该用Pandas转换成Parquet文件并保存,所以我有相同数量的文件,就像Parquet一样。
我遍历了我的目录,把所有现存的json文件列成一个列表,并把它们放到一个panda Dataframe 中。
path = 'trackingdata/'
df = list()
for root, dirs, files in os.walk(path, topdown=False):
for name in files:
df.append(os.path.join(root, name))
df = pd.DataFrame(df)
现在遍历 Dataframe 并使用以下命令转换每个文件是否更好
df.to_parquet('trackingdata.parquet')
或者在遍历目录后将转换写入上面的代码会更好吗?我如何将每个文件转换为 parquet 而不将所有文件连接在一起?
1条答案
按热度按时间gwbalxhn1#
如何定义一个json_to_parquet转换器:
根据json的格式,您可能需要更改read_json行和/或使用提示here
然后一次处理一个文件: