建议用于收集社交网络分析的bigdata数据库

xriantvc  于 2021-06-10  发布在  Hbase
关注(0)|答案(1)|浏览(328)

我想建立一个系统,每小时收集社交网络数据,并对特定的分享/帖子(可能有数千条)上发生的事情进行采样。一旦我做了爬网,我想把它保存在一个大数据数据库,我可以分析以后。
分析过程可能是spark,甚至是应用程序代码分析。这意味着我正在寻找最好的数据库,将允许我:1。查询。2spark和其他常用的数据处理可以在上面使用。
你建议哪一个?hbase?蒙哥达?沙发床?大table?发电机?
谢谢!

holgip5t

holgip5t1#

既然你提到了spark,我认为你需要存储gbs的数据一天,而且这个输入数据永远不会改变(只读),我建议把你的原始数据存储在文件中,比如s3或hdfs。因为从文件中读取json要比从任何数据库中读取都快,而且无论是从hdfs、hbase还是couchbase,spark作业都是一样的。文件存储也会更便宜。
如果您仍然想将它们存储在hbase中,那么即使您使用phoenix,它也不提供太多sql查询功能,hbase是一个键值db,您最终会得到许多辅助索引表和重复数据,这对于这种批处理用例是不必要的。

相关问题