我正在尝试在hadoop中为日志聚合做poc。我们有多个iis服务器托管至少100个站点。我想将日志连续地流式传输到hdfs,解析数据并存储在hive中以供进一步分析。1) apachekafka是正确的选择还是apacheflume2) 在流式传输之后,最好使用apachestorm并将数据摄取到hive中请帮助提供任何建议,以及任何此类问题陈述的信息。谢谢
sgtfey8w1#
你可以用任何一个 Kafka or flume 您还可以将两者结合起来,以将数据 HDFS 但是您需要为此编写代码—有可用的开源数据流管理工具,您不需要编写代码。如。 NiFi and Streamsets 您不需要使用任何单独的摄取工具,您可以直接使用这些数据流工具将数据放入配置单元表。一旦在配置单元中创建了表,您就可以通过提供查询来进行分析。告诉我你还需要别的什么。
Kafka or flume
HDFS
NiFi and Streamsets
1条答案
按热度按时间sgtfey8w1#
你可以用任何一个
Kafka or flume
您还可以将两者结合起来,以将数据HDFS
但是您需要为此编写代码—有可用的开源数据流管理工具,您不需要编写代码。如。NiFi and Streamsets
您不需要使用任何单独的摄取工具,您可以直接使用这些数据流工具将数据放入配置单元表。一旦在配置单元中创建了表,您就可以通过提供查询来进行分析。告诉我你还需要别的什么。