hadoop—将批脱机数据加载到dwh环境中，kafka作为“入口”

zpf6vheq 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(551)

我的问题的一些背景。
如您所见：

https://medium.com/airbnb-engineering/data-infrastructure-at-airbnb-8adfb34f169c
有两个“门”将数据加载到hdfs中
sqoop公司
Kafka
以这种拓扑结构为例，加载托管在ftp服务器info hdfs上的批量脱机数据的最佳实践是什么？
我们还假设不需要对文件进行任何更改，我们需要将其存储在hdfs中，与存储在ftp服务器中的结构相同。
思想？

hadoop hdfs apache-kafka bigdata

来源：https://stackoverflow.com/questions/47330744/loading-batch-offline-data-to-dwh-environment-with-kafka-as-the-entering-door

1条答案

按热度按时间

mwg9r5ms1#

默认情况下，kafka并不完全配置为传输“文件大小”的数据。至少，不是一条消息中包含整个文件。也许把行分开，但是你需要重新排序，然后把它们放回hdfs中。
根据我的经验，我在ftp服务器上看到了一些选项。
香草hadoop，不需要额外的软件
使用nfs网关、webhdfs或httpfs将文件直接复制到hdfs，就像它是另一个文件系统一样
需要其他软件
您自己的代码与ftp和hdfs客户端连接
spark流媒体，带ftp连接器和hdfs写入输出
kafka和kafka使用ftp连接器源和hdfs接收器连接
在ftp服务器上使用hdfs接收器运行的flume代理
带有getftp和puthdfs处理器的apachenifi
streamsets数据收集器执行类似于nifi的操作（不知道这个的术语）
我们需要在hdfs中以ftp服务器中存储的相同结构存储它。
如果这些文件很小，那么在上传到hdfs之前，最好至少将这些文件压缩成hadoop支持的归档格式

赞(0）回复(0）举报 2021-06-01

我来回答

hadoop—将批脱机数据加载到dwh环境中，kafka作为“入口”

1条答案

相关问题

热门标签

最新问答