如何使用ApacheNIFI将多个json文件加载到多个具有正确Map的配置单元表中?

j0pj023g  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(407)

我需要使用apachenifi将基于表名的多个csv文件摄取到它们各自的配置单元表中。源json文件中表\u地址的数据应该转到hive中的表\u地址,对于其他表也是如此。简而言之,源json文件中的记录需要被分离成多个tablename.csv格式的csv文件,并加载到各自的配置单元表中。
我正在使用的处理器使用kafka-->splitjson-->evaluatejsonpath-->updateattribute-->replacetext-->putfile
kafka golden gate试用版中使用的源json文件中的记录需要分离为多个tablename.csv格式的csv文件,并使用ApacheNIFI流加载到各自的配置单元表中。

tquggr8v

tquggr8v1#

您可以在nifi中使用partitionrecord处理器。
配置记录读取器(json)/写入器(csv)控制器服务
输出流文件将位于 csv format 基于 partition column 可以将数据存储到的值 hive tables dynamically . Flow: ```
Consume Kafka -->
Partition Record (specify partition field) -->
PutFile (or) PutHiveStreaming (or) PutHDFS(based on the value of partition field)

相关问题