为什么hadoop不提供xmlinputformat？

kqqjbcuj 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(378)

我正在使用hadoop map reduce。我必须处理来自 .xml 文件，对其进行解析并将输出存储到数据库中。
当我需要将xml传递给mapper时，我发现 XmlInputFormat.class 默认情况下，hadoop不提供，我们必须使用mahout的xmlinputformat。
我想知道当xml被大量使用时，为什么hadoop没有提供 XmlInputFormat 为此，而不是显式地创建自定义xmlinputformat TextInputFormat 为了它？

hadoop xml mahout

来源：https://stackoverflow.com/questions/31073211/why-xmlinputformat-is-not-provided-by-hadoop

1条答案

按热度按时间

cgvd09ve1#

尽管xml被广泛使用，但为一种技术提供具有特殊功能的框架可能不是一个好主意。它可能像一个背书。在高层，mapreduce被设计为接受不同的格式。事实上，由于json与xml相比的尺寸特性，如今json被大量使用。就连我也有类似的问题。
但是由用户决定map reduce的输入，如果使用recordreader实现，则可以使用不同的解析器（jackson或gson用于json，jaxb用于xml），如果它们在一行或类似的行中

赞(0）回复(0）举报 2021-05-30

我来回答

为什么hadoop不提供xmlinputformat？

1条答案

相关问题

热门标签

最新问答