我有一个只处理大文本文件的Map作业。对每一行进行分析和分类。多重输出用于将每个类别输出到单独的文件中。最终,所有数据都被添加到一个专门用于每个类别的配置单元表中。我目前的工作流程做的工作,但有点麻烦。我将添加几个类别,并认为我可能能够简化流程。我有一些想法,正在寻找一些意见。
当前工作流:
仅Map作业将大文件划分为多个类别。输出如下所示:
类别1-m-00000
类别1-m-00001
类别1-m-00002
类别2-m-00000
类别2-m-00001
类别2-m-00002
类别3-m-00000
类别3-m-00001
类别3-m-00002
外部(非hadoop)进程将输出文件复制到每个类别的单独目录中。
类别1/00000
类别1/00001
类别1/00002
类别2/00000
类别2/00001
类别2/00002
类别3/00000
类别3/00001
类别3/00002
为每个类别创建一个外部表,然后将数据插入该类别的永久配置单元表中。
可能的新工作流
使用spark循环输出文件,并根据文件名将数据插入到相应的永久配置单元表中。
使用hcatalog将数据直接从Map器插入到永久配置单元表中,也可以是一个或一组专门用于每个类别的缩减器。
1条答案
按热度按时间qpgpyjmq1#
对于多输出,将输出路径设置为配置单元外部表所在的基本文件夹。然后将数据写入
"<table_name>/<filename_prefix>"
. 数据将位于目标表中。