hadoop map reduce以csv格式从csv文件中提取特定列

t1rydlwq  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(587)

我是hadoop的新手,正在从事一个大数据项目,在这个项目中,我必须清理和过滤给定的csv文件。例如,如果给定的csv文件有200列,那么我只需要选择20个特定列(所谓的数据过滤)作为进一步操作的输出。作为数据清理的一部分,我还必须检查日期列的日期格式是否正确,并将所有格式更改为单一格式,如dd-mm-yyyy。
到目前为止,我能够阅读给定的文件,但你能建议如何选择特定的列,以及关于检查日期格式?

6ie5vjzr

6ie5vjzr1#

您还可以使用apachepig来过滤和验证日期格式。遵循以下步骤:
将文件复制到hdfs中
使用load命令和pigstorage()加载文件。
使用foreach statment选择20列(您只需给出列名称/编号,如$0、$3、$5……等等)
写入自定义项以验证日期格式(参考-http://www.crackinghadoop.com/pig-java-udf-validate-date-format/)
使用“store”存储过滤后的输出。

相关问题