我的场景是在我的项目中,我们从Kafka每分钟200味精,需要存储在Hive表使用avro格式。如果我们使用insert scriptf或每条消息,我相信为每条消息插入脚本需要很长时间。有没有什么想法,对于这种流式数据,我们必须使用哪种方式插入到Hive具有良好的性能。谢谢你的帮助。
f4t66c6m1#
你对使用ApacheStorm作为流机制感兴趣吗?这可以通过使用kafka到HiveBolt使用storm来完成,你可以很容易地搜索到它。请让我知道如果你是那么我可以给你指出正确的方向。
xytpbqjk2#
为什么不创建一个外部表并将msg发送到外部表位置呢。
2条答案
按热度按时间f4t66c6m1#
你对使用ApacheStorm作为流机制感兴趣吗?这可以通过使用kafka到HiveBolt使用storm来完成,你可以很容易地搜索到它。请让我知道如果你是那么我可以给你指出正确的方向。
xytpbqjk2#
为什么不创建一个外部表并将msg发送到外部表位置呢。