我有一个spark应用程序,它为表的设置执行etl,并执行数据级别的协调。现在,我想执行并行加载,对每个表执行一次侦察,并根据结果发送一封合并的输出电子邮件。对帐逻辑将返回一个com.google.gson.jsonobject,它有一个名为“status”的字段,其值字符串为“mismatch for tablename-source count and targetcount”。如何合并每个表级recon返回的返回jsonobject并获得合并输出?我看到的一个选项是将侦察状态存储在hdfs文件中并合并它。有更好的办法吗?
tableList.toParArray map {
case(tableName,filter) =>
val dataframe= loadDF(tableName)
val status = validator(params,dataframe)
}
暂无答案!
目前还没有任何答案,快来回答吧!