CREATE EXTERNAL TABLE page_view(viewTime INT, userid BIGINT,
page_url STRING, referrer_url STRING,
ip STRING COMMENT 'IP Address of the User',
country STRING COMMENT 'country of origination')
COMMENT 'This is the staging page view table'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\054'
STORED AS TEXTFILE
LOCATION '<hdfs_location>';
1条答案
按热度按时间8hhllhi21#
是的,它将在hdfs中存储导入数据的副本(作为storefiles/hfiles),因为hbase只能使用自己的一组文件进行操作。也许你会发现这个不错的概述很有趣。
您可以直接操作存储在hdfs中的数据,而无需使用外部配置单元表将其导入hbase:
在hadoop世界中,拥有相同数据的多个副本(尽管格式不同)应该不是问题,因为存储不被视为限制因素,因为它是基于商品硬件的,所以价格便宜而且易于扩展。事实上,如果您有足够的输入数据,很常见的情况是,您的hive/pig/mapreduce作业只需要数百甚至数千gbs(中间数据)就可以处理您的作业。