pyspark：读取具有不同结构的多个文件并将其写入hive

cyej8jka 于 2021-05-19 发布在 Spark

关注(0)|答案(0)|浏览(361)

我有一个场景，需要从配置文件中读取文件（超过100个）和文件名，并在for循环（序列）中处理这些文件，然后将其写入配置单元表。现在，我已经编写了两个函数（一个用于使用pandas进行转换，另一个用于使用pyspark在配置单元表中加载数据）。
每个文件结构都完全不同。我想在pyspark中转换这个功能，还需要并行处理这些文件。

def trf(dataframe):
<transformation logic>

def load(dataframe):
<loading hive tables using hivewarehouse connector>

for file in file list:  <file list from config file>
  df=pd.read_csv(file)
  trf_df=trf(df)
  load_status=load(trf_df)

我想在pyspark中并行化文件提取和配置单元表加载。如何做到这一点？
谢谢

Hive apache-spark pyspark parallel-processing

来源：https://stackoverflow.com/questions/64372317/pyspark-read-multiple-files-with-different-structure-and-write-it-to-hive

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

pyspark：读取具有不同结构的多个文件并将其写入hive

暂无答案！

相关问题

热门标签

最新问答