我关心的是如何从mongodb中提取数据,我的应用程序将处理mongodb中的大部分数据。
我曾在sqoop上工作以提取数据,并发现rdbms通过sqoop与hdfs结合在一起。然而,没有找到明确的方向来使用sqoop从nosqldb提取数据,并将其转储到hdfs上进行大数据块处理?请分享你的建议和调查。
我从mysql中提取了静态信息和数据事务。简单地说,使用sqoop在hdfs中存储数据并处理数据。现在,我有一些每天100万个独立emailid的实时事务,这些数据被建模到mongodb中。我需要将数据从mongodb移动到hdfs进行处理/etl。如何使用sqoop实现这个目标。我知道我可以安排我的任务,但是通过sqoop从mongodb取出数据的最佳方法应该是什么。
考虑2tb大小的5dn集群。数据大小在高峰时间从1gb到2gb不等。
1条答案
按热度按时间pftdvrlh1#
sqoop仅用于从关系数据库导入数据。从mongo到hadoop还有其他方法可以获取数据。
如:https://docs.mongodb.com/ecosystem/tools/hadoop/
或者您可以使用任何数据流管理工具,如nifi或streamset,从mongo实时获取数据。