用javamahoutxmlinputformat(hadoop)解析xml

beq87vna 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(241)

我已经找到了一种在hadoop中使用java解析xml文件的方法
我找到了这个链接
它展示了如何使用xmlinputformat类来解析xml
但正如有人在评论中提到的：“hdfs将文件拆分为64MB的块，程序将丢失在一个块的结尾和下一个块的开头之间划分的记录。”
对于exmaple，文件如下所示：

<Details>
<ID> 12346 </ID>
<age> 30 </age>
<FirstName> "bla bla me"</FirstName>
<LastName> "say my name"</LastName>
</Details>

那么我该怎么处理xml的拆分，防止数据丢失呢？
或者换句话说，当一个xml可能被分成两个不同的节点时，它是如何处理的？

Java hadoop xml-parsing mahout

来源：https://stackoverflow.com/questions/32968417/parsing-xml-with-java-mahout-xmlinputformat-hadoop

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

用javamahoutxmlinputformat(hadoop)解析xml

暂无答案！

相关问题

热门标签

最新问答