我已经找到了一种在hadoop中使用java解析xml文件的方法
我找到了这个链接
它展示了如何使用xmlinputformat类来解析xml
但正如有人在评论中提到的:“hdfs将文件拆分为64MB的块,程序将丢失在一个块的结尾和下一个块的开头之间划分的记录。”
对于exmaple,文件如下所示:
<Details>
<ID> 12346 </ID>
<age> 30 </age>
<FirstName> "bla bla me"</FirstName>
<LastName> "say my name"</LastName>
</Details>
那么我该怎么处理xml的拆分,防止数据丢失呢?
或者换句话说,当一个xml可能被分成两个不同的节点时,它是如何处理的?
暂无答案!
目前还没有任何答案,快来回答吧!