我有一个ip地址列表。我需要为每个ip分配一个国家。例如http://www.ip2nation.com/ 提供此服务。我找到了一些ip2country的数据库,但是如何将其与pig集成?
输入:
14.59.63.28
145.89.87.211
54.27.253.89
98.201.50.22
116.48.29.143
145.89.87.211
20.109.204.65
20.109.204.65
预期产量:
14.59.63.28 country1
145.89.87.211 country2
54.27.253.89 country3
98.201.50.22 country4
116.48.29.143 country5
145.89.87.211 country2
20.109.204.65 country6
20.109.204.65 country6
1条答案
按热度按时间23c0lvtd1#
您需要从数据库中提取ip和国家名称的数据库。然后使用提取的数据与您流式处理的数据执行连接。
我将直接加入。为了获得更好的性能,您可以检查复制的join-in-pighttp://pig.apache.org/docs/r0.7.0/piglatin_ref1.html#replicated+连接