python—如何将百万首歌曲这样的大数据集加载到bigdatahdfs、hbase或hive中?

uemypmqf  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(308)

我下载了大约2gb的百万首歌曲数据集的子集。但是,数据被分解为文件夹和子文件夹。在子文件夹中,它们都是几种“h5文件”格式。我知道它可以用python来阅读。但我不知道如何提取并加载到hdfs中,以便在pig中运行一些数据分析。我是否将它们提取为csv并加载到hbase或hive?如果有人能给我指出正确的资源,那会有帮助的。

7uzetpgm

7uzetpgm1#

不要把这么多的小文件加载到hdfs中。hadoop不能很好地处理很多小文件。每个小文件都会产生开销,因为块大小(通常为64mb)要大得多。
我想自己做,所以我在想解决办法。百万首歌曲数据集文件的大小不超过1mb。我的方法是在导入hdfs之前以某种方式聚合数据。
cloudera的博客文章“小文件问题”可能会给我们一些启示。

e5nqia27

e5nqia272#

如果它已经是csv格式或者linux文件系统中的任何格式,那么pig可以理解,只要做一个hadoop fs-copyfromlocal就可以了
如果您想在hdfs上使用python读取/处理原始h5文件格式,请参阅hadoop streaming(map/reduce)
python可以在一个像样的linux系统上处理2gb的内存——不确定是否需要hadoop。

相关问题