我用hbase和phoenix建立了一个emr集群,用于批量加载数据。指定的存储模式是s3。我想知道s3根文件夹中的区域和列族在哪里?另外,完成批量加载后,s3根文件夹的一般结构是什么?有人能帮我吗。
wxclj1h51#
在常规设置中(当您的hbase数据在hdfs中时),您应该希望在hbase的hdfs中看到以下目录结构:
/hbase/data/default/TableName/RegionID/ColumFamily
这是假设您的表没有名称空间(否则名称空间应该在那里而不是“default”)。因此,在/hbase/data/default中应该有许多文件夹,每个文件夹都对应于hbase中的表。在每个tablename文件夹中,应该有许多文件夹,每个文件夹对应于该表中的一个区域(区域ID通常是这样的长ID:49920919fc726446ec73c111a99f00f0)然后,在每个区域子文件夹中,应该有一个与列族对应的文件夹。最后,在该文件夹中,您将看到实际的hfile(一旦刷新数据)。我怀疑当hbase数据是在s3而不是hdfs中时,这应该有什么不同,但我自己从来没有使用过s3。只需浏览上面的文件夹结构。
1条答案
按热度按时间wxclj1h51#
在常规设置中(当您的hbase数据在hdfs中时),您应该希望在hbase的hdfs中看到以下目录结构:
这是假设您的表没有名称空间(否则名称空间应该在那里而不是“default”)。
因此,在/hbase/data/default中应该有许多文件夹,每个文件夹都对应于hbase中的表。
在每个tablename文件夹中,应该有许多文件夹,每个文件夹对应于该表中的一个区域(区域ID通常是这样的长ID:49920919fc726446ec73c111a99f00f0)
然后,在每个区域子文件夹中,应该有一个与列族对应的文件夹。
最后,在该文件夹中,您将看到实际的hfile(一旦刷新数据)。
我怀疑当hbase数据是在s3而不是hdfs中时,这应该有什么不同,但我自己从来没有使用过s3。只需浏览上面的文件夹结构。