我正在使用hadoop map reduce。我必须处理来自 .xml 文件,对其进行解析并将输出存储到数据库中。当我需要将xml传递给mapper时,我发现 XmlInputFormat.class 默认情况下,hadoop不提供,我们必须使用mahout的xmlinputformat。我想知道当xml被大量使用时,为什么hadoop没有提供 XmlInputFormat 为此,而不是显式地创建自定义xmlinputformat TextInputFormat 为了它?
.xml
XmlInputFormat.class
XmlInputFormat
TextInputFormat
cgvd09ve1#
尽管xml被广泛使用,但为一种技术提供具有特殊功能的框架可能不是一个好主意。它可能像一个背书。在高层,mapreduce被设计为接受不同的格式。事实上,由于json与xml相比的尺寸特性,如今json被大量使用。就连我也有类似的问题。但是由用户决定map reduce的输入,如果使用recordreader实现,则可以使用不同的解析器(jackson或gson用于json,jaxb用于xml),如果它们在一行或类似的行中
1条答案
按热度按时间cgvd09ve1#
尽管xml被广泛使用,但为一种技术提供具有特殊功能的框架可能不是一个好主意。它可能像一个背书。在高层,mapreduce被设计为接受不同的格式。事实上,由于json与xml相比的尺寸特性,如今json被大量使用。就连我也有类似的问题。
但是由用户决定map reduce的输入,如果使用recordreader实现,则可以使用不同的解析器(jackson或gson用于json,jaxb用于xml),如果它们在一行或类似的行中