我想配置一个flume代理,它应该读取Kafka主题,并以Parquet格式保存数据。我该怎么做?我找不到直接以Parquet格式写入数据的解决方案
vpfxa7rd1#
flume hdfs sink在默认情况下不会写入parquet,因为您无法向其追加行。最好的方法是使用flume编写avro文件,并在文件完成时触发mapreduce作业或impala,以执行avro到parquet。
1条答案
按热度按时间vpfxa7rd1#
flume hdfs sink在默认情况下不会写入parquet,因为您无法向其追加行。最好的方法是使用flume编写avro文件,并在文件完成时触发mapreduce作业或impala,以执行avro到parquet。