java—对hadoop的数据摄取感到困惑

jexiocij  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(358)

这也许是一个简单的问题,但它只是一个概念性的问题,而不是谷歌可能提供的明确答案。但我目前的理解是,为了将数据“摄取”到hadoop集群中,首先必须将数据放在主pc或集群单元上。这与我知道可以使用hadoop作为分散数据收集的方法这一事实相矛盾,如果每个单元都有传感器,那么就可以在设备上收集数据并以这种方式接收数据。
假设我有一个raspberry pi(或任何其他外围以太网设备),我想向hadoop分布式处理/数据库添加数据。我是否需要使这个以太网设备成为集群上的一个完整节点(具有自己的hdfs贡献等),以便该设备只需向hadoop集群输入数据,就可以从任何节点访问它?如果我不需要这样做,那么我需要采取什么步骤来实现这一点?
再次抱歉,如果这是这个网站太概念,但我只是想确保我理解之前,我缩小我的范围和放大开始编码,以确保我的工作是正确的事情。

bwitn5fc

bwitn5fc1#

从概念上讲,您的以太网设备(raspberry pi)不一定是hadoop集群的一部分。它可以远程上传数据到hdfs(例如这样),或者上传到hadoop可以读取的任何其他数据存储。
例如:pi可以将数据上传到amazons3 bucket,然后您可以启动hadoop(例如在emr上)集群,该集群使用s3作为输入。

相关问题