我已经在hadoop mr上工作了相当长的时间,并且创建和使用了custom(扩展) Writable 课程包括 MapWritable . 现在我需要将我用java编写的mr翻译成python。我没有python方面的经验,现在正在探索各种库。我在考虑一些选择,比如pydoop和mrjob。但是,我想知道这些库是否包含创建类似自定义 Writable 类以及如何创建它们。如果没有,有什么可能的替代方法来做同样的事情?
Writable
MapWritable
xj3cbfub1#
在pydoop中,对自定义hadoop类型的显式支持仍然是wip。换言之,现在我们并没有为用户提供方便,但是可以通过一些工作来完成。几点提示:pydoop已经包含了定制的java代码,自动安装在python包中 pydoop.jar . 我们根据需要将这个额外的jar传递给hadoop。添加更多的java代码只需将源代码放入 src/ 把它列在 JavaLib.java_files 在 setup.py 在python方面,新类型需要反序列化程序。参见示例 LongWritableDeserializer 在 pydoop.mapreduce.pipes .希望这有帮助。
pydoop.jar
src/
JavaLib.java_files
setup.py
LongWritableDeserializer
pydoop.mapreduce.pipes
1条答案
按热度按时间xj3cbfub1#
在pydoop中,对自定义hadoop类型的显式支持仍然是wip。换言之,现在我们并没有为用户提供方便,但是可以通过一些工作来完成。几点提示:
pydoop已经包含了定制的java代码,自动安装在python包中
pydoop.jar
. 我们根据需要将这个额外的jar传递给hadoop。添加更多的java代码只需将源代码放入src/
把它列在JavaLib.java_files
在setup.py
在python方面,新类型需要反序列化程序。参见示例LongWritableDeserializer
在pydoop.mapreduce.pipes
.希望这有帮助。