在pig中发送到udf之前获取交叉数据的更好方法

dauxcl2d 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(409)

我想使用我创建的模糊自定义项，将每个人列表与所有内容数据进行比较，然后将它们发送到自定义项。为了做到这一点，我决定使用交叉数据之前发送给它。
这是我的样本名单，

101|PORAWAT
102|HADI
103|RIO

而且我的内容（每个数据可能包含多个人）和数据可能相似（由于打字错误）：

1001|case1|PORACWAT VS RIO CORP
1002|case2|PANIT

为了向自定义项发送数据，我决定在调用自定义项之前使用交叉数据，下面是我的代码：

REGISTER hdfs:/user/hue/myudfs.jar;
-- LOAD
person_list = LOAD '/user/hue/data/person' USING PigStorage('|') as (p_id:chararray,p_name:chararray);
content_list =  LOAD '/user/hue/data/content' USING PigStorage('|') as (c_id:chararray,c_caseid:chararray,c_content:chararray);
-- CROSS
person_cross_content = CROSS person_list, content_list;
DESCRIBE person_cross_content;
person_cross_content : {person_list::p_id: chararray,person_list::p_name: chararray,content_list::c_id: chararray,content_list::c_caseid: chararray,content_list::c_content: chararray}

因此，交叉内容将是：

101,PORAWAT,1001,case1,PORACWAT X RIO CORP
101,PORAWAT,1002,case2,PANIT
102,HADI,1001,case1,PORACWAT X RIO CORP
102,HADI,1002,case2,PANIT
103,RIO,1001,case1,PORACWAT X RIO CORP
103,RIO,1002,case2,PANIT

然后，用我的模糊自定义项检查所有内容的所有人，只得到精确/相似的匹配结果，我会像这样调用：

-- MyFuzzyMatching will return true when p_name occurred(exact/similar) in c_content
A = FOREACH person_cross_content GENERATE p_name, c_caseid, myudfs.MyFuzzyMatching(p_name,c_content) as (fuzzy_result:chararray);
-- Filter just only match result
FILTER A BY fuzzy_result == 'true';
-- Store the result ...