hadoop—将批脱机数据加载到dwh环境中,kafka作为“入口”

zpf6vheq  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(551)

我的问题的一些背景。
如您所见:

https://medium.com/airbnb-engineering/data-infrastructure-at-airbnb-8adfb34f169c
有两个“门”将数据加载到hdfs中
sqoop公司
Kafka
以这种拓扑结构为例,加载托管在ftp服务器info hdfs上的批量脱机数据的最佳实践是什么?
我们还假设不需要对文件进行任何更改,我们需要将其存储在hdfs中,与存储在ftp服务器中的结构相同。
思想?

mwg9r5ms

mwg9r5ms1#

默认情况下,kafka并不完全配置为传输“文件大小”的数据。至少,不是一条消息中包含整个文件。也许把行分开,但是你需要重新排序,然后把它们放回hdfs中。
根据我的经验,我在ftp服务器上看到了一些选项。
香草hadoop,不需要额外的软件
使用nfs网关、webhdfs或httpfs将文件直接复制到hdfs,就像它是另一个文件系统一样
需要其他软件
您自己的代码与ftp和hdfs客户端连接
spark流媒体,带ftp连接器和hdfs写入输出
kafka和kafka使用ftp连接器源和hdfs接收器连接
在ftp服务器上使用hdfs接收器运行的flume代理
带有getftp和puthdfs处理器的apachenifi
streamsets数据收集器执行类似于nifi的操作(不知道这个的术语)
我们需要在hdfs中以ftp服务器中存储的相同结构存储它。
如果这些文件很小,那么在上传到hdfs之前,最好至少将这些文件压缩成hadoop支持的归档格式

相关问题