我对hadoop生态系统有几个疑问。渴望很好地理解概念。配置单元表在哪里存储数据?对于数据仓库,我们是否需要在hive和hbase表中都有相同的数据。如何从hbase插入、更新和读取数据。除了csv以外,hdfs还可以存储哪些文件格式。我们可以在hbase上吃Pig吗。如果我有配置单元,可以省略hbase表吗。
2fjabf4q1#
答案,按顺序:配置单元通常将数据存储在其配置的文件系统目录下的名为目录的表中,通常是的hdfs目录 /user/hive/warehouse ,通过 hive-site.xml 财产 hive.metastore.warehouse.dir .hive和hbase是两种不同的表存储概念。前者没有记录或随机读写的概念。它们之间唯一的共同点是连接器配置单元必须读取以hbase的服务器/格式存储的表数据。《hbase参考指南》详细介绍了这一点。最简单的方法是使用 hbase shell .hdfs是一个与unix或windows文件系统类似的普通文件系统(仅分布式文件系统),因此不关心存储在其上的数据类型。您可以存储任何您想要的内容,前提是您还可以使用读取器/写入器逻辑来稍后对其进行消化。pig提供了一个hbastorage内置的存储访问方法作为其核心的一部分,允许您在pig脚本中访问和表示hbase行数据。见(2)。两者都是不相关的,除非你希望他们是,所以答案是肯定的。
/user/hive/warehouse
hive-site.xml
hive.metastore.warehouse.dir
hbase shell
1条答案
按热度按时间2fjabf4q1#
答案,按顺序:
配置单元通常将数据存储在其配置的文件系统目录下的名为目录的表中,通常是的hdfs目录
/user/hive/warehouse
,通过hive-site.xml
财产hive.metastore.warehouse.dir
.hive和hbase是两种不同的表存储概念。前者没有记录或随机读写的概念。它们之间唯一的共同点是连接器配置单元必须读取以hbase的服务器/格式存储的表数据。
《hbase参考指南》详细介绍了这一点。最简单的方法是使用
hbase shell
.hdfs是一个与unix或windows文件系统类似的普通文件系统(仅分布式文件系统),因此不关心存储在其上的数据类型。您可以存储任何您想要的内容,前提是您还可以使用读取器/写入器逻辑来稍后对其进行消化。
pig提供了一个hbastorage内置的存储访问方法作为其核心的一部分,允许您在pig脚本中访问和表示hbase行数据。
见(2)。两者都是不相关的,除非你希望他们是,所以答案是肯定的。