在python中为hadoop map reduce创建自定义可写键/值类型?

ulmd4ohb  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(441)

我已经在hadoop mr上工作了相当长的时间,并且创建和使用了custom(扩展) Writable 课程包括 MapWritable . 现在我需要将我用java编写的mr翻译成python。我没有python方面的经验,现在正在探索各种库。我在考虑一些选择,比如pydoop和mrjob。但是,我想知道这些库是否包含创建类似自定义 Writable 类以及如何创建它们。如果没有,有什么可能的替代方法来做同样的事情?

xj3cbfub

xj3cbfub1#

在pydoop中,对自定义hadoop类型的显式支持仍然是wip。换言之,现在我们并没有为用户提供方便,但是可以通过一些工作来完成。几点提示:
pydoop已经包含了定制的java代码,自动安装在python包中 pydoop.jar . 我们根据需要将这个额外的jar传递给hadoop。添加更多的java代码只需将源代码放入 src/ 把它列在 JavaLib.java_filessetup.py 在python方面,新类型需要反序列化程序。参见示例 LongWritableDeserializerpydoop.mapreduce.pipes .
希望这有帮助。

相关问题