pyspark:读取具有不同结构的多个文件并将其写入hive

cyej8jka  于 2021-05-19  发布在  Spark
关注(0)|答案(0)|浏览(361)

我有一个场景,需要从配置文件中读取文件(超过100个)和文件名,并在for循环(序列)中处理这些文件,然后将其写入配置单元表。现在,我已经编写了两个函数(一个用于使用pandas进行转换,另一个用于使用pyspark在配置单元表中加载数据)。
每个文件结构都完全不同。我想在pyspark中转换这个功能,还需要并行处理这些文件。

def trf(dataframe):
<transformation logic>

def load(dataframe):
<loading hive tables using hivewarehouse connector>

for file in file list:  <file list from config file>
  df=pd.read_csv(file)
  trf_df=trf(df)
  load_status=load(trf_df)

我想在pyspark中并行化文件提取和配置单元表加载。如何做到这一点?
谢谢

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题