我是一个新手Pig拉丁语。我想处理下面的文件,并计算最发生的字。hadoop是一个开源的基于java的编程框架,它支持在分布式计算环境中对大量数据集进行处理和存储。该文件包含 | 作为分隔符。
|
p8h8hvxi1#
这里有很多单词计数的例子。不管怎样,这里有一个带分隔符“|”的例子
lines = LOAD 'input.txt' AS (line:chararray); newlines = FOREACH lines GENERATE REPLACE(line,'\\|',' ') AS newline; words = FOREACH newlines GENERATE FLATTEN(TOKENIZE(newline)) as word; grouped = GROUP words BY word; w_count = FOREACH grouped GENERATE group, COUNT(words); DUMP w_count;
1条答案
按热度按时间p8h8hvxi1#
这里有很多单词计数的例子。不管怎样,这里有一个带分隔符“|”的例子