我想构建一个spark流作业,从hdfs读取源代码,其中包含具有不同模式的不同Parquet文件,然后将它们写入es(使用elasticsearch hadoop)。例如,现在我有两种Dataframe:
df_a - StructField(id,LongType,true), StructField(name,StringType,true)
df_b - StructField(id,LongType,true), StructField(attributes,ArrayType(StructType(StructField(b,LongType,true)
我想写信 dt_a
至 index_A
写下 df_b
至 index_B
.
问题是我不知道如何处理不同的模式,因为我只想构建一个流作业来完成它,而不是为每个Dataframe构建每个作业,因为Dataframe的种类可能会不断丰富。
有什么好的解决办法吗?
暂无答案!
目前还没有任何答案,快来回答吧!