我需要创建一个数据管道,其中源是http,接收器是hdfs来发布数据和文件。问题是我想保存的文件的扩展名与它们最初发送到http源的扩展名相同。我用下面的脚本创建了一个流stream create httptohdfs--定义“http | hdfs”--部署但是当我上传.gzip/.xml/.json格式的文件时,它将文件存储在.txt中我只想通过http源代码复制hdfs中的文件,springxd可以吗?
z9gpfhce1#
这个 hdfs sink用于将基于文本的流写入hdfs。它接受一个名为 --fileExtension 您可以在其中指定文件扩展名。这个接收器不是用来复制一个二进制文件的,但是你必须使用一个定制的批处理作业来完成这个任务,并且让你的http源在一个文件可用时向批处理作业发送一条消息。提供了批处理作业 filepollhdfs 这对csv文件也有类似的作用。
hdfs
--fileExtension
filepollhdfs
1条答案
按热度按时间z9gpfhce1#
这个
hdfs
sink用于将基于文本的流写入hdfs。它接受一个名为--fileExtension
您可以在其中指定文件扩展名。这个接收器不是用来复制一个二进制文件的,但是你必须使用一个定制的批处理作业来完成这个任务,并且让你的http源在一个文件可用时向批处理作业发送一条消息。提供了批处理作业filepollhdfs
这对csv文件也有类似的作用。