大家好我对bigdata很陌生,我安装了hdfs+hbase测试数据库,我使用talend bigdata(etl)进行测试。我想知道:如果我把一个文件直接放在hdfs中,而不经过hbase,我就永远不能请求这些数据了?我的意思是,如果我想过滤我想选择的数据,我必须读取整个文件,对吗?非常感谢你的帮助!
wbgh16ku1#
hdfs只是一个分布式文件系统,如果不经过中间组件,就无法查询文件。hbase是一个nosql数据库,它将您的数据持久保存在hdfs上,当您需要随机访问数据时可以使用它。如果您想将文件按原样存储在hdfs上并查询它们,可以使用hive在它们上创建一个外部表。
vecaoik12#
最好的选择是在hdfs上的文件顶部使用hive。您可以在配置单元中使用bucketing和分区来提高性能。
2条答案
按热度按时间wbgh16ku1#
hdfs只是一个分布式文件系统,如果不经过中间组件,就无法查询文件。hbase是一个nosql数据库,它将您的数据持久保存在hdfs上,当您需要随机访问数据时可以使用它。
如果您想将文件按原样存储在hdfs上并查询它们,可以使用hive在它们上创建一个外部表。
vecaoik12#
最好的选择是在hdfs上的文件顶部使用hive。您可以在配置单元中使用bucketing和分区来提高性能。