pig脚本/命令，用于在多个字符串上过滤文件

gc0ot86w 于 2021-06-21 发布在 Pig

关注(0)|答案(2)|浏览(479)

我正在尝试编写一个java程序或hadoop pig脚本，它将采用逗号分隔字符串的参数（例如。 , def, xyz )并筛选文件中包含一个或多个字符串的记录。
例如
输入文件：

1    abctree
2    pqrwewe
3    rtrxyz45
4    abcxyz
5    234rt23

输入参数为： , def, xyz 预期产量：

1    abctree
3    rtrxyz45
4    abcxyz

我能够编写脚本过滤1字符串的文件，使用 matches ，但不知道如何对多个字符串执行此操作。我需要为此编写自定义项吗？
我在这个问题中添加了java标记，因为根据我的初步发现，我将不得不编写一个用java编写的udf。所以，如果有人知道用java写这个的方法，请发布你的解决方案。

Java hadoop regex apache-pig pattern-matching

来源：https://stackoverflow.com/questions/9847486/pig-script-command-to-filter-a-file-on-multiple-strings

2条答案

按热度按时间

svujldwt1#

我不知道pig，但在java中，您可以使用以下内容：

String[] words = input.split("[\\s,]+");

String line;
while((line = file.readLine()) != null){
    for(String word : words){
        if(line.contains(word)){
            System.out.print(line);
            break;
        }
    }
}
``` `contains` 足以找到文字。你可以根据 `input` 在那上面串和匹配。这个表达式看起来像 `foo|bar|baz` ，但您需要转义元字符，以便它们在匹配过程中是文本的，这可以通过 `java.util.regex.Pattern.quote` .

赞(0）回复(0）举报 2021-06-21

bakd9h0s2#

我想出来了：

B = filter A by (n matches '.*string1.*' or n matches '.*string2.*' or n matches '.*string3.*');

这就成功了。
但是，根据我的要求，我将接受来自命令行的“逗号分隔”输入，例如。 string1, string2, string3 . 所以下一个任务是以某种方式分离单个字符串，并在上面的表达式中使用它们。如果有人知道怎么做（特别是没有自定义项），请张贴。

赞(0）回复(0）举报 2021-06-21

我来回答

pig脚本/命令，用于在多个字符串上过滤文件

2条答案

相关问题

热门标签

最新问答