为什么hadoop不提供xmlinputformat?

kqqjbcuj  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(356)

我正在使用hadoop map reduce。我必须处理来自 .xml 文件,对其进行解析并将输出存储到数据库中。
当我需要将xml传递给mapper时,我发现 XmlInputFormat.class 默认情况下,hadoop不提供,我们必须使用mahout的xmlinputformat。
我想知道当xml被大量使用时,为什么hadoop没有提供 XmlInputFormat 为此,而不是显式地创建自定义xmlinputformat TextInputFormat 为了它?

cgvd09ve

cgvd09ve1#

尽管xml被广泛使用,但为一种技术提供具有特殊功能的框架可能不是一个好主意。它可能像一个背书。在高层,mapreduce被设计为接受不同的格式。事实上,由于json与xml相比的尺寸特性,如今json被大量使用。就连我也有类似的问题。
但是由用户决定map reduce的输入,如果使用recordreader实现,则可以使用不同的解析器(jackson或gson用于json,jaxb用于xml),如果它们在一行或类似的行中

相关问题