将嵌套元组取消嵌套为单个项

neskvpey 于 2021-06-25 发布在 Pig

关注(0)|答案(1)|浏览(377)

我写了一个自定义项( extends EvalFunc<Tuple> )其中包含作为输出元组的内部元组（嵌套）。
例如，转储看起来像：

(((photo,photos,photo)))
(((wedg,wedge),(audusd,audusd)))
(((quantum,quantum),(mind,mind)))
(((cassi,cassie),(cancion,canciones)))
(((calda,caldas),(nova,novas),(rodada,rodada)))
(((fingerprint,fingerprint),(craft,craft),(easter,easter)))

现在我要处理每个术语，区分它并给它一个id( RANK ). 为此，我需要去掉括号。一个简单的 FLATTEN 在这种情况下没有帮助。
最终输出应如下所示：

1 photo
2 photos
3 wedg
4 wedge
5 audusd
6 quantum
7 mind
....

我的代码（不是udf部分，也不是原始解析）：

tags = FOREACH raw GENERATE FLATTEN(tags) AS tag;
tags_distinct = DISTINCT tags;
tags_sorted = RANK tags_distinct BY tag;
DUMP tags_sorted;

udf apache-pig tuples Nested Flatten

来源：https://stackoverflow.com/questions/30693711/un-nesting-nested-tuples-to-single-terms

1条答案

按热度按时间

jm81lzqq1#

我认为你的自定义项是回报不是你的工作流程的最佳选择。与返回具有可变字段数（即元组）的元组不同，返回一包元组会更方便。
而不是

(((wedg,wedge),(audusd,audusd)))

你会有的

({(wedg,wedge),(audusd,audusd)})

你就能把袋子压平到：1。使区别2。对标签进行排序
为此，请按以下方式更新您的自定义项：

class MyUDF extends EvalFunc <DataBag> {

    @Override
    public DataBag exec(Tuple input) throws IOException {
        // create DataBag
    }
}

赞(0）回复(0）举报 2021-06-26

我来回答

将嵌套元组取消嵌套为单个项

1条答案

相关问题

热门标签

最新问答