除了flink之外,还有什么类似于mahout的xmlinputformat吗?
我有一个很大的xml文件,我想提取特定的元素。在我的情况下,这是一个维基百科垃圾场,我需要得到所有 <page>
标签。
i、 如果我有档案
<mediawiki>
<siteinfo>...</siteinfo>
<page>...</page>
<page>...</page>
<page>...</page>
</mediawiki>
我想把这三张唱片都拿出来 <page>...</page>
在Map绘制器中使用。理想情况下,它应该是有效的xml,这是xpath查询所需要的 /mediawiki/page
会回来的。
1条答案
按热度按时间92dk7w1h1#
mahout的xmlinputformat扩展了hadoop的textinputformat。flink为hadoop InputFormat提供了通用 Package 器,因此也应该支持xmlinputformat。
要使用hadoop inputformats读取数据,可以执行以下操作:
有关详细信息,请参阅文档。