向分区数据集添加新值pyarrow

ilmyapht  于 2021-05-17  发布在  Spark
关注(0)|答案(0)|浏览(361)

我有一个数据集,如下所示,包含以下列:park、md、powerby、value
使用以下代码,我们将数据集保存在按列park划分的hdfs分区中:

import pandas as pd
import pyarrow.parquet as pq
import pyarrow as pa 

df = pd.read_csv('mycsv.csv')

table = pa.Table.from_pandas(df,preserve_index=False)

fs = pa.hdfs.connect(host=HDFS_HOST, port=HDFS_PORT, user=HDFS_USER)

pq.write_to_dataset(
    table,
    root_path='path/hdfs',
    partition_cols=['PARK'],
    flavor='spark',
    filesystem=fs
)

到现在为止,一直都还不错。现在,假设我得到另一个数据集mycsv2.csv,具有相同的列。如何将此数据集添加到先前创建的分区中?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题