flume代理从kafka读取并以parquet格式存储数据

dwbf0jvd  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(1171)

我想配置一个flume代理,它应该读取Kafka主题,并以Parquet格式保存数据。我该怎么做?我找不到直接以Parquet格式写入数据的解决方案

vpfxa7rd

vpfxa7rd1#

flume hdfs sink在默认情况下不会写入parquet,因为您无法向其追加行。最好的方法是使用flume编写avro文件,并在文件完成时触发mapreduce作业或impala,以执行avro到parquet。

相关问题