有没有人能帮我从csv文件中删除旧记录,并用pig保存最近的记录。
例如:输入
键1 sta日期
xx第38页2017年10月17日
xx第38页12-10-2017
yyyy第38页11-10-2017
yyyy第38页23-09-2017
yyyy第38页14-09-2017
2017年10月25日
2017年10月10日第38页
我的预期产出是
键1 sta日期
xx第38页2017年10月17日
yyyy第38页11-10-2017
2017年10月25日
输出中还应包括标题。
请建议我如何做到这一点?
2条答案
按热度按时间8oomwypt1#
嵌套foreach可用于此情况,
要了解嵌套foreach,请看这个,https://shrikantbang.wordpress.com/2014/01/14/apache-pig-group-by-nested-foreach-join-example/httpshttp://community.mapr.com/thread/22034-apache-pig-nested-foreach-explaination
在用模式保存输出时,https://hadoopified.wordpress.com/2012/04/22/pigstorage-options-schema-and-source-tagging/
kcwpcxri2#
下面将为您工作。