我有一个数据集,如下所示,包含以下列:park、md、powerby、value
使用以下代码,我们将数据集保存在按列park划分的hdfs分区中:
import pandas as pd
import pyarrow.parquet as pq
import pyarrow as pa
df = pd.read_csv('mycsv.csv')
table = pa.Table.from_pandas(df,preserve_index=False)
fs = pa.hdfs.connect(host=HDFS_HOST, port=HDFS_PORT, user=HDFS_USER)
pq.write_to_dataset(
table,
root_path='path/hdfs',
partition_cols=['PARK'],
flavor='spark',
filesystem=fs
)
到现在为止,一直都还不错。现在,假设我得到另一个数据集mycsv2.csv,具有相同的列。如何将此数据集添加到先前创建的分区中?
暂无答案!
目前还没有任何答案,快来回答吧!