我有3个lzo压缩文件和它们在hdfs中对应的索引文件。
Permission Owner Group Size Replication Block Size Name
-rw-r--r-- alum supergroup 0 B 3 128 MB _SUCCESS
-rw-r--r-- alum supergroup 192.29 MB 3 128 MB part-00000.lzo
-rw-r--r-- alum supergroup 89.56 KB 3 128 MB part-00000.lzo.index
-rw-r--r-- alum supergroup 243.09 MB 3 128 MB part-00001.lzo
-rw-r--r-- alum supergroup 106.67 KB 3 128 MB part-00001.lzo.index
-rw-r--r-- alum supergroup 163.99 MB 3 128 MB part-00002.lzo
-rw-r--r-- alum supergroup 70.54 KB 3 128 MB part-00002.lzo.index
我们将这些文件复制到amazons3,并创建用于分析的hive外部表。
以下是我们面临的问题,
1) LZO index files are also being treated as data files and meaningless data appears in hive tables
2) "count(*)" query on the table spans only 4 mappers. Indicating problem in splitting.
你能告诉我发生了什么事吗?它在我们的纱团里很好用。
1条答案
按热度按时间ds97pgxw1#
s3的处理方式与hdfs不同。拆分逻辑不需要像hdfs那样应用。记住s3是云存储,而hdfs不是本地存储。在s3中,您的文件不会以块的形式出现。这种行为是意料之中的。