我正在hadoop上研究pdf文档聚类,所以我通过阅读internet上的一些示例来学习mapreduce
job.get("map.input.file") job.getboolean()
这些函数的作用是什么?map.input.file到底是什么?在哪里设置?或者只是输入文件夹的名称?如果有人知道,请张贴答案。有关代码,请参见以下链接wordcount 2.0示例=http://hadoop.apache.org/docs/r1.0.4/mapred_tutorial.html
kyvafyod1#
这些是作业配置。i、 e.传递给每个Map器和缩减器的一组配置。现在,这些配置包括定义良好的mapreduce/hadoop相关配置以及用户定义的配置。就你而言, map.input.file 是一个预定义的配置,它被设置为以逗号分隔的列表,其中列出了您设置为输入路径的所有路径。而 wordcount.skip.patterns 是根据用户输入设置的自定义配置,您可以在中看到要设置的配置 run() 具体如下:
map.input.file
wordcount.skip.patterns
run()
conf.setBoolean("wordcount.skip.patterns", true);
至于什么时候用 get 什么时候用 getBoolean ,它应该是不言自明的,因为每当您想要设置一个boolean类型的值时,您都将使用它 getBoolean 以及 setBoolean 分别获取和设置特定的配置值。类似地,对于其他数据类型也有特定的方法。如果是字符串,则可以使用 get() .
get
getBoolean
setBoolean
get()
1条答案
按热度按时间kyvafyod1#
这些是作业配置。i、 e.传递给每个Map器和缩减器的一组配置。现在,这些配置包括定义良好的mapreduce/hadoop相关配置以及用户定义的配置。
就你而言,
map.input.file
是一个预定义的配置,它被设置为以逗号分隔的列表,其中列出了您设置为输入路径的所有路径。而
wordcount.skip.patterns
是根据用户输入设置的自定义配置,您可以在中看到要设置的配置run()
具体如下:至于什么时候用
get
什么时候用getBoolean
,它应该是不言自明的,因为每当您想要设置一个boolean类型的值时,您都将使用它getBoolean
以及setBoolean
分别获取和设置特定的配置值。类似地,对于其他数据类型也有特定的方法。如果是字符串,则可以使用get()
.