从python udf返回长度未知的元组,然后在pig中应用hash

vqlkdk9b  于 2021-06-25  发布在  Pig
关注(0)|答案(1)|浏览(408)

这个问题有两个部分:
首先,我有一个python自定义项,它创建了一个长度未知的字符串列表。udf的输入是 map ( dict 在python中),键的数量基本上是未知的(这是我试图获得的)。
我不知道的是如何在一个模式中输出它,让我以列表的形式返回它(或者其他一些可编辑的数据结构)。到目前为止,我的情况是:

@outputSchema("?????") #WHAT SHOULD THE SCHEMA BE!?!?
def test_func(input):

    output = []
    for k, v in input.items():

        output.append(str(key))

    return output

现在,问题的第二部分。一旦在pig中,我想为我的所有用户对“list”中的每个元素应用sha散列。一些伪代码:

USERS = LOAD 'something' as (my_map:map[chararray])
UDF_OUT = FOREACH USERS GENERATE my_udfs.test_func(segment_map)
SHA_OUT = FOREACH UDF_OUT GENERATE SHA(UDF_OUT)

最后一行可能是错误的,因为我想将sha应用于列表中的每个元素,而不是整个列表。

ecbunoof

ecbunoof1#

为了回答您的问题,因为您返回的python列表的内容是字符串,所以您希望您的decorator是

@outputSchema('name_of_bag:{(keys:chararray)}')

在指定这个结构时可能会混淆,因为您只需要定义包中的一个元素是什么样子。
也就是说,有一个更简单的方法来做你需要的事情。有一个函数 KEYSET() (你可以参考我回答的这个问题)这将从PigMap中提取钥匙。因此,使用该示例中的数据集并向第一个添加更多的键,因为您说过Map内容的长度是可变的

maps
----
[a#1,b#2,c#3,d#4,e#5]
[green#sam,eggs#I,ham#am]

查询:

REGISTER /path/to/jar/datafu-1.2.0.jar;
DEFINE datafu.pig.hash.SHA();

A = LOAD 'data' AS (M:[]);
B = FOREACH A GENERATE FLATTEN(KEYSET(M));
hashed = FOREACH B GENERATE $0, SHA($0);
DUMP hashed;

输出:

(d,18ac3e7343f016890c510e93f935261169d9e3f565436429830faf0934f4f8e4)
(e,3f79bb7b435b05321651daefd374cdc681dc06faa65e374e38337b88ca046dea)
(b,3e23e8160039594a33894f6564e1b1348bbd7a0088d42c4acb73eeaed59c009d)
(c,2e7d2c03a9507ae265ecf5b5356885a53393a2029d241394997265a1a25aefc6)
(a,ca978112ca1bbdcafac231b39a23dc4da786eff8147c4e72b9807785afee48bb)
(ham,eccfe263668d171bd19b7d491c3ef5c43559e6d3acf697ef37596181c6fdf4c)
(eggs,46da674b5b0987431bdb496e4982fadcd400abac99e7a977b43f216a98127721)
(green,ba4788b226aa8dc2e6dc74248bb9f618cfa8c959e0c26c147be48f6839a0b088)

相关问题