将 parquet 转换为CSV

8ehkhllq 于 2023-03-15 发布在其他

关注(0)|答案(3)|浏览(348)

如何从本地文件系统（例如Python，一些库等）转换到CSV，但没有Spark？（试图找到尽可能简单和最低限度的解决方案，因为需要自动化的一切，没有太多的资源）。
我尝试在Mac上使用例如parquet-tools，但数据输出看起来不正确。
需要进行输出，以便在某些列中不存在数据时- CSV将具有相应的NULL（2个逗号之间的空列）。
谢谢。

csv

来源：https://stackoverflow.com/questions/51215166/convert-parquet-to-csv

3条答案

按热度按时间

wmvff8tz1#

可以使用Python包pandas和pyarrow（pyarrow是pandas的可选依赖项，您需要使用它来实现此功能）。

import pandas as pd
df = pd.read_parquet('filename.parquet')
df.to_csv('filename.csv')

当需要修改文件中的内容时，可以在df上执行标准的pandas操作。

赞(0）回复(0）举报 2023-03-15

wi3ka0sx2#

如果您正在使用Jupyter notebooks，您可以用途：

import sys
import pandas as pd
!{sys.executable} -m pip install pyarrow
parquet_file = 'fhv_tripdata_2022-04.parquet'
df = pd.read_parquet(parquet_file)
csv_output = 'yellow_taxi_cab.csv'
df.to_csv(csv_output, index=False, sep='\t')

赞(0）回复(0）举报 2023-03-15

zzoitvuj3#

有一个包fastparquet可以从 parquet 文件中读取数据：

from fastparquet import ParquetFile

# Reading the data from Parquet File
pf = ParquetFile("userdata.parquet")

# Converting data in to pandas dataFrame
dataFrame = pf.to_pandas()

# Converting to CSV
dataFrame.to_csv("converted.csv", index = False)

赞(0）回复(0）举报 2023-03-15

我来回答

将 parquet 转换为CSV

3条答案

相关问题

热门标签

最新问答