我有一个pyspark程序来执行业务Map,并将数据加载到两个基于月末日期分区的配置单元外部表中。
请求场景:第一个目标表加载后第二个表加载前是否出现故障。在我的再加工过程中,我不应该再碰第一张table上的负载,继续第二张table上的负载。是否有任何 Package 文件,我可以触摸在hdfs的位置或任何其他替代可用??
hdfs位置:
/home/gudirame/user/data_base_db/table_name1/_SUCCESS
/home/gudirame/user/data_base_db/table_name1/2020-09-30/part-001-dsfas.parquet
/home/gudirame/user/data_base_db/table_name1/2020-10-31/part-002-dsfas.parquet
/home/gudirame/user/data_base_db/table_name2/_SUCCESS
/home/gudirame/user/data_base_db/table_name2/2020-09-30/part-003-dsfas.parquet
/home/gudirame/user/data_base_db/table_name2/2020-10-31/part-004-dsfas.parquet
暂无答案!
目前还没有任何答案,快来回答吧!