在我的hdfs中,我将进行xml处理。ie处理一个xml文件并提取2个节点。这将是我的x和y来绘制一个图形。我该怎么做。从hdfs输出生成图形。我想使用rapid miner。我该怎么做任何想法。。。不然呢有没有办法可视化我的hadoop数据
noj0wjuj1#
hdfs的工作方式是将文件分割成预定义大小的块。就像做一个
split -b 64M file.xml
并将每个块保存到salve数据节点。现在,如果hdfs的块大小为64mb,文件大小为1GB,则文件将被拆分为16个块并保存在不同的位置。因此,mapreduce作业将无法理解xml文件块,因为xml的结构不同于简单的csv或tsv文件。因此,据我所知,如果xml文件大于hdfs块大小,就不能在hdfs上处理它。
1条答案
按热度按时间noj0wjuj1#
hdfs的工作方式是将文件分割成预定义大小的块。就像做一个
并将每个块保存到salve数据节点。现在,如果hdfs的块大小为64mb,文件大小为1GB,则文件将被拆分为16个块并保存在不同的位置。因此,mapreduce作业将无法理解xml文件块,因为xml的结构不同于简单的csv或tsv文件。因此,据我所知,如果xml文件大于hdfs块大小,就不能在hdfs上处理它。