scala—hadoop中解析xml的工具

vyswwuz2  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(330)

我想知道在hadoop环境中是否有任何工具可以用来解析xml文件。我知道如果没有可用的工具,使用MapReduce我们可以解析xml文件,而哪种语言scala、java或pig的解析更好?请帮忙。

7gyucuyw

7gyucuyw1#

hadoop环境通常会有java可用。因此,我将使用“用于xml绑定的java体系结构”或jaxb。
它相对容易使用,并且具有包括以下主要方法的发展战略:
您有其他人定义的要在java中访问的xml。
您有想要用xml表示的java数据结构。
它有很多特性,但是不要担心添加所有的铃铛和口哨,除非你需要它们。它也相当快。
你可以在这里找到它的学习路径。
scala也是一个很好的选择,但是它的学习曲线比较高(如果您已经了解java并且对基于lambda的语言有一定的了解,那么学习曲线就没有那么高)。这些文档是合理的,但有时它只是缺少可用于java的文档。
scala将是我的第二个选择,因为我的团队没有在scala中完成任务的记录。这并不难,对于某些问题,scala要容易得多,但是如果没有一点scala经验,人们往往会利用非scala方法在scala中解决问题。
pig是一种我经验有限的语言,所以我会保留评论。

相关问题