我需要使用apachenifi将基于表名的多个csv文件摄取到它们各自的配置单元表中。源json文件中表\u地址的数据应该转到hive中的表\u地址,对于其他表也是如此。简而言之,源json文件中的记录需要被分离成多个tablename.csv格式的csv文件,并加载到各自的配置单元表中。
我正在使用的处理器使用kafka-->splitjson-->evaluatejsonpath-->updateattribute-->replacetext-->putfile
kafka golden gate试用版中使用的源json文件中的记录需要分离为多个tablename.csv格式的csv文件,并使用ApacheNIFI流加载到各自的配置单元表中。
1条答案
按热度按时间tquggr8v1#
您可以在nifi中使用partitionrecord处理器。
配置记录读取器(json)/写入器(csv)控制器服务
输出流文件将位于
csv format
基于partition column
可以将数据存储到的值hive tables dynamically
.Flow:
```Consume Kafka -->
Partition Record (specify partition field) -->
PutFile (or) PutHiveStreaming (or) PutHDFS(based on the value of partition field)