sqoop和flume的澄清

ou6hu8tu  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(370)

我对大数据非常陌生,对sqoop和flume也不太了解
所以我得到了sqoop和flume之间的区别
sqoop用于从rdbms传输大量数据
flume用于数据流,如日志文件
我的困惑是因为我所看到的大数据体系结构(我没有虚拟拷贝)是分组结构化数据,它是通过sqoop传输的,而非结构化数据是通过flume传输的。
我的问题是,这是否意味着Flume是只为流?
高频数据呢?flume是否支持非日志文件(即音频、视频)的非结构化数据传输,或者sqoop是否能够处理?
最后一个问题是sqoop能否与联邦数据源一起工作?如果真的和虚拟的都是?
谢谢,

eulz3vhy

eulz3vhy1#

apacheflume是一个分布式的、可靠的、可用的系统,用于有效地收集、聚合大量的日志数据,并将这些数据从许多不同的源移动到一个集中的数据存储区。
apacheflume的使用不仅限于日志数据聚合。由于数据源是可定制的,flume可以用来传输大量的事件数据,包括但不限于网络流量数据、社交媒体生成的数据、电子邮件和几乎所有可能的数据源。
apache sqoop是一个用于在apache hadoop和结构化数据存储(如关系数据库)之间高效传输大量数据的工具(它导入数据,在hadoop mapreduce中转换数据,然后导出数据)。
sqoop自动化了这个过程的大部分,依赖于数据库来描述要导入的数据的模式。sqoop使用mapreduce导入和导出数据,提供了并行操作和容错功能。

来源:sqoop vs flume hadoop之战
参考:摄入和流
flume对于流是有效的,如果您只想从rdbms转储数据,为什么不使用sqoop呢?
高频数据,如果你是指社会媒体是的,flume可以处理它。非结构化数据是的,flume也可以处理。

lf3rwulv

lf3rwulv2#

sqoop本质上是一种从rdbms摄取hdfs中数据的工具。在后台,它生成简单的java代码,将查询提交给rdbms,并将结果写入hdfs。这意味着您可以使用sqoop导入所有可以通过jdbc连接访问并且具有java驱动程序的内容。因此,您不能将其用于文件(如日志)或诸如此类的内容。
那么sqoop就不能处理视频或音频文件了。
Flume,相反,是用来监测和摄取实时信息。你可以摄取任何有Flume来源的东西(https://flume.apache.org/flumeuserguide.html#flume-来源)。

相关问题