java—对hadoop的数据摄取感到困惑

jexiocij 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(358)

这也许是一个简单的问题，但它只是一个概念性的问题，而不是谷歌可能提供的明确答案。但我目前的理解是，为了将数据“摄取”到hadoop集群中，首先必须将数据放在主pc或集群单元上。这与我知道可以使用hadoop作为分散数据收集的方法这一事实相矛盾，如果每个单元都有传感器，那么就可以在设备上收集数据并以这种方式接收数据。
假设我有一个raspberry pi（或任何其他外围以太网设备），我想向hadoop分布式处理/数据库添加数据。我是否需要使这个以太网设备成为集群上的一个完整节点（具有自己的hdfs贡献等），以便该设备只需向hadoop集群输入数据，就可以从任何节点访问它？如果我不需要这样做，那么我需要采取什么步骤来实现这一点？
再次抱歉，如果这是这个网站太概念，但我只是想确保我理解之前，我缩小我的范围和放大开始编码，以确保我的工作是正确的事情。

Java hadoop hdfs scala Ethernet

来源：https://stackoverflow.com/questions/26783574/confused-about-data-ingestion-hadoop

1条答案

按热度按时间

bwitn5fc1#

从概念上讲，您的以太网设备（raspberry pi）不一定是hadoop集群的一部分。它可以远程上传数据到hdfs（例如这样），或者上传到hadoop可以读取的任何其他数据存储。
例如：pi可以将数据上传到amazons3 bucket，然后您可以启动hadoop（例如在emr上）集群，该集群使用s3作为输入。

赞(0）回复(0）举报 2021-06-03

我来回答

java—对hadoop的数据摄取感到困惑

1条答案

相关问题

热门标签

最新问答