我在研究 Hadoop with MongoDB as Database
不是hdfs。所以,我需要一些性能和可用性方面的指导。
我的设想
我的数据是
来自twitter的推文
facebook新闻源
我可以从twitter和facebook api获取数据。为了进行hadoop处理,我需要存储。
所以我的问题是,使用hadoop和mongodb来存储twitter提要、facebook帖子等社交网络数据是否可行(或有益)?还是使用hdfs并将数据存储在文件中更好。任何专业指导将不胜感激。谢谢
1条答案
按热度按时间mo49yndu1#
这样做是完全可行的。但这主要取决于你的需要。基本上,一旦你有了数据,你想做什么?
也就是说,mongodb绝对是一个不错的选择。它擅长于存储非结构化、深度嵌套的文档,比如您的案例中的json。您不必太担心数据中的嵌套和关系。您也不必担心模式。无模式存储无疑是使用mongodb的一个重要原因。
另一方面,我发现hdfs更适合平面文件,在平面文件中,您只需选择规范化的数据并开始处理。
但这些只是我的想法。其他人可能会有不同的看法。我最后的建议是分析好你的用例,然后确定你的商店。
hth公司