python—如何将百万首歌曲这样的大数据集加载到bigdatahdfs、hbase或hive中？

uemypmqf 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(308)

我下载了大约2gb的百万首歌曲数据集的子集。但是，数据被分解为文件夹和子文件夹。在子文件夹中，它们都是几种“h5文件”格式。我知道它可以用python来阅读。但我不知道如何提取并加载到hdfs中，以便在pig中运行一些数据分析。我是否将它们提取为csv并加载到hbase或hive？如果有人能给我指出正确的资源，那会有帮助的。

hadoop Hive hbase python bigdata

来源：https://stackoverflow.com/questions/33043704/how-to-load-big-datasets-like-million-song-dataset-into-bigdata-hdfs-or-hbase-or

2条答案

按热度按时间

7uzetpgm1#

不要把这么多的小文件加载到hdfs中。hadoop不能很好地处理很多小文件。每个小文件都会产生开销，因为块大小（通常为64mb）要大得多。
我想自己做，所以我在想解决办法。百万首歌曲数据集文件的大小不超过1mb。我的方法是在导入hdfs之前以某种方式聚合数据。
cloudera的博客文章“小文件问题”可能会给我们一些启示。

赞(0）回复(0）举报 2021-05-30

e5nqia272#

如果它已经是csv格式或者linux文件系统中的任何格式，那么pig可以理解，只要做一个hadoop fs-copyfromlocal就可以了
如果您想在hdfs上使用python读取/处理原始h5文件格式，请参阅hadoop streaming（map/reduce）
python可以在一个像样的linux系统上处理2gb的内存——不确定是否需要hadoop。

赞(0）回复(0）举报 2021-05-30

我来回答

python—如何将百万首歌曲这样的大数据集加载到bigdatahdfs、hbase或hive中？

2条答案

相关问题

热门标签

最新问答