我们计划将事件从kafka卸载到s3(例如通过使用kafka connect)。目标是启动一个服务(如amazonathena),并在导出的avro事件之上提供一个查询接口。障碍是amazon athena avro serde(使用org.apache.hadoop.hive.serde2.avro.avroserde)不支持schema registry用来存储schema id的神奇字节。您知道有什么替代方法可以很好地使用confluent schema registry吗?
谢谢!
我们计划将事件从kafka卸载到s3(例如通过使用kafka connect)。目标是启动一个服务(如amazonathena),并在导出的avro事件之上提供一个查询接口。障碍是amazon athena avro serde(使用org.apache.hadoop.hive.serde2.avro.avroserde)不支持schema registry用来存储schema id的神奇字节。您知道有什么替代方法可以很好地使用confluent schema registry吗?
谢谢!
1条答案
按热度按时间mgdq6dx11#
使用s3connect的avroconverter不会在文件中放入任何模式id。事实上,在编写消息之后,您将完全丢失模式id。
我们有很多配置单元表可以很好地处理这些文件,用户可以使用athena、presto进行查询。sparksql等。
注意:如果您想使用aws glue,s3connect(目前,从5.x开始)没有像hdfs连接器那样提供自动的配置单元分区创建,因此如果您想这样使用它,您可能需要寻找替代方法。