hdf5对于数据检索和数据存储的效率如何？

vlju58qv 于 2021-06-02 发布在 Hadoop

关注(0)|答案(2)|浏览(514)

我想把一个500gb的键控表转储到hdf5中，然后检索与特定键匹配的行。
对于hdf5文件，像all-the-data-access这样的项使用整数“行”数，因此似乎我必须在hdf5之外实现一个“key-to-row-number-map”。
像hadoop或spark这样使用hdfs的分布式系统检索不是更高效吗？我应该使用分布式系统来实现map/hashfunction吗？

hadoop hdfs apache-spark bigdata hdf5

来源：https://stackoverflow.com/questions/38282019/how-efficient-is-hdf5-for-data-retrieval-as-opposed-to-data-storage

2条答案

按热度按时间

nvbavucw1#

hdfs将数据保存在块中，然后根据数据格式，查询将一次读取块并解析记录。hdfs本身不会提供按键查找。
看看hbase。它将数据存储在hdfs中，并提供一个key->value接口来查找行：https://hbase.apache.org/

赞(0）回复(0）举报 2021-06-02

vwhgwdsa2#

是的，使用hdfs可以更有效
但为了提高效率，最好的方法是使用hive over hdfs，因为map reduce不提供任何默认的按键分隔数据的方法。如果要按键分隔数据，则需要对其进行编码。
但是对于配置单元，您可以更高效地查询数据，因为配置单元提供了许多内置的查询命令，如ex-->separate by key、by value等。由于配置单元使用的是sql查询，因此使用起来也更容易。
有关查询hdfs的不同方法的更多详细信息，请参阅https://cwiki.apache.org/confluence/display/hive/languagemanual+udf
希望这能回答你的问题。

赞(0）回复(0）举报 2021-06-02

我来回答

hdf5对于数据检索和数据存储的效率如何？

2条答案

相关问题

热门标签

最新问答