我想用pig脚本删除hdfs中文件的第一行和最后一行。我试图实现这一点,使用排名和它的工作,但我应该知道最后的排名数字删除它,但我的文件是动态的,它可以有更多或更少的行,在这种情况下,我找不到任何东西。请帮忙编辑:我的数据非常庞大,所以我无法创建模式,也无法将它们分组以使用min()如何实现这一点?
pw136qt21#
一旦你有可用的排名,你可以得到第一个和最后一个排名,你想排除(即你的文件的第一行和最后一行)通过最小值和最大值函数的手段。这样就不需要硬编码秩过滤器。评估函数最大值最小评估函数注:此为pig版本0.16.0。
1条答案
按热度按时间pw136qt21#
一旦你有可用的排名,你可以得到第一个和最后一个排名,你想排除(即你的文件的第一行和最后一行)通过最小值和最大值函数的手段。这样就不需要硬编码秩过滤器。
评估函数最大值
最小评估函数
注:此为pig版本0.16.0。