在mapreduce中使用hbase而不是hdfs

9avjhtql 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(417)

脚本：
我分析数兆字节的数据，并在此基础上进行一些文本挖掘，然后将数据存储到hdfs文件中。然后，为了查询数据，我们将这些数据导入到配置单元中。
但是，我们还需要对增量数据执行一些更新操作。例如，如果新数据和旧数据中存在相同的行键，则更新数据而不是插入。
目前我正在使用hdfs进行上述操作。现在我正在考虑使用hbase进行读/写操作。
我想知道与hdfs相比，将hbase读/写与mapreduce结合使用的这种方法的性能优缺点。

hadoop hbase hdfs mapreduce

来源：https://stackoverflow.com/questions/37526775/using-hbase-instead-of-hdfs-in-mapreduce

1条答案

按热度按时间

shstlldc1#

优点（使用hbase作为数据存储）：
灵活的数据模型和数据是由行键索引。
快速扫描表格。
从大数据集中访问少量数据的低延迟。您可以从十亿行表中快速访问单行。
对于小的更新，这是更好的，因为你可以扫描和更新，而不是附加（这是hdfs的情况）。
cons（使用hbase作为数据存储）：
您需要执行大容量加载，以便在您的案例中加载大容量数据（TB）。
使用批量加载将跳过wal（有数据丢失的风险）。
如果不执行批量加载以加载数据，则速度将降低。
我希望我已经回答了你的问题。如果我错了，请纠正我

赞(0）回复(0）举报 2021-06-02

我来回答

在mapreduce中使用hbase而不是hdfs

1条答案

相关问题

热门标签

最新问答