如何从Map器登录(hadoop和commoncrawl)

hujrc8aj  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(263)

我使用的是他们“mapreduce for the mass”教程中的commoncrawl示例代码。我正在尝试对Map器进行修改,并希望能够将字符串记录到某些输出中。我正在考虑设置一些nosqldb并将我的输出推到它上面,但这并不是一个好的解决方案。从java执行这种日志记录的标准方法是什么?

1l5u6lss

1l5u6lss1#

虽然除了常见的日志记录器(至少我知道一个)之外,没有针对日志的特殊解决方案,但我可以看到一些解决方案。
a) 如果日志是用于调试的-确实要编写常用的调试日志。在任务失败的情况下,您可以通过ui找到它们并进行分析。
b) 如果这些日志是某种输出,您希望与作业中的其他输出一起获得,请为它们分配一些特定的键并写入上下文。然后在减速机中,您将需要一些特殊的逻辑来将它们放到输出中。
c) 您可以在hdfs上创建目录,并使mapper写入其中。对于mr来说,这并不是经典的方法,因为这是副作用——在某些情况下,这是可以接受的。特别是考虑到在每个Map程序创建自己的文件之后-可以使用命令hadoop fs-getmerge。。。将所有日志作为一个文件获取。
c) 如果你想能够监测你的工作进度,错误数等-你可以使用计数器。

相关问题