我的问题的一些背景。如您所见:https://medium.com/airbnb-engineering/data-infrastructure-at-airbnb-8adfb34f169c有两个“门”将数据加载到hdfs中sqoop公司Kafka以这种拓扑结构为例,加载托管在ftp服务器info hdfs上的批量脱机数据的最佳实践是什么?我们还假设不需要对文件进行任何更改,我们需要将其存储在hdfs中,与存储在ftp服务器中的结构相同。思想?
mwg9r5ms1#
默认情况下,kafka并不完全配置为传输“文件大小”的数据。至少,不是一条消息中包含整个文件。也许把行分开,但是你需要重新排序,然后把它们放回hdfs中。根据我的经验,我在ftp服务器上看到了一些选项。香草hadoop,不需要额外的软件使用nfs网关、webhdfs或httpfs将文件直接复制到hdfs,就像它是另一个文件系统一样需要其他软件您自己的代码与ftp和hdfs客户端连接spark流媒体,带ftp连接器和hdfs写入输出kafka和kafka使用ftp连接器源和hdfs接收器连接在ftp服务器上使用hdfs接收器运行的flume代理带有getftp和puthdfs处理器的apachenifistreamsets数据收集器执行类似于nifi的操作(不知道这个的术语)我们需要在hdfs中以ftp服务器中存储的相同结构存储它。如果这些文件很小,那么在上传到hdfs之前,最好至少将这些文件压缩成hadoop支持的归档格式
1条答案
按热度按时间mwg9r5ms1#
默认情况下,kafka并不完全配置为传输“文件大小”的数据。至少,不是一条消息中包含整个文件。也许把行分开,但是你需要重新排序,然后把它们放回hdfs中。
根据我的经验,我在ftp服务器上看到了一些选项。
香草hadoop,不需要额外的软件
使用nfs网关、webhdfs或httpfs将文件直接复制到hdfs,就像它是另一个文件系统一样
需要其他软件
您自己的代码与ftp和hdfs客户端连接
spark流媒体,带ftp连接器和hdfs写入输出
kafka和kafka使用ftp连接器源和hdfs接收器连接
在ftp服务器上使用hdfs接收器运行的flume代理
带有getftp和puthdfs处理器的apachenifi
streamsets数据收集器执行类似于nifi的操作(不知道这个的术语)
我们需要在hdfs中以ftp服务器中存储的相同结构存储它。
如果这些文件很小,那么在上传到hdfs之前,最好至少将这些文件压缩成hadoop支持的归档格式