我使用apachenutch在hbase中存储数据,hbase使用hdfs作为文件系统。我想知道它存储在hbase中的哪些文档等。如何从hbase中读取这些数据,例如某些pdf存储在hbase中。我想看看。我要怎么做。请引导我?
epfja78i1#
网页和文档存储为一行。如果您知道您的文档链接,您可以在hbase shell或其他工具(hivepig等)上获得它。nutch将url存储为反向url。e、 g.“http://bar.foo.com:8983/to/index.html?a=b“变成”com.foo。bar:8983:http/to/index.html?a=b“。有关hbase shell的信息http://wiki.apache.org/hadoop/hbase/shell
1条答案
按热度按时间epfja78i1#
网页和文档存储为一行。如果您知道您的文档链接,您可以在hbase shell或其他工具(hivepig等)上获得它。nutch将url存储为反向url。
e、 g.“http://bar.foo.com:8983/to/index.html?a=b“变成”com.foo。bar:8983:http/to/index.html?a=b“。
有关hbase shell的信息http://wiki.apache.org/hadoop/hbase/shell