我有一个场景,需要从配置文件中读取文件(超过100个)和文件名,并在for循环(序列)中处理这些文件,然后将其写入配置单元表。现在,我已经编写了两个函数(一个用于使用pandas进行转换,另一个用于使用pyspark在配置单元表中加载数据)。
每个文件结构都完全不同。我想在pyspark中转换这个功能,还需要并行处理这些文件。
def trf(dataframe):
<transformation logic>
def load(dataframe):
<loading hive tables using hivewarehouse connector>
for file in file list: <file list from config file>
df=pd.read_csv(file)
trf_df=trf(df)
load_status=load(trf_df)
我想在pyspark中并行化文件提取和配置单元表加载。如何做到这一点?
谢谢
暂无答案!
目前还没有任何答案,快来回答吧!