hadoop分析网络流量流

3j86kqsm  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(354)

关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。

6年前关门了。
改进这个问题
我需要知道如何实现通过hadoop实时分析流量流的解决方案。
输入文件类型为.txt
我建议采取以下步骤:
使用talend将平面文件传输到hdfs(flume比talend更好吗?)
将数据从hdfs传输到hive(但如何传输)
通过r分析
平面文件-->hdfs-->配置单元-->r
非常感谢
苏菲烷

gorkyyrv

gorkyyrv1#

1) 如果您的日期已经存储在.txt文件中,那么“hadoop fs-cp”就足够了。flume用于流数据。
2) 您不需要将数据从hdfs传输到hive。hive分析存储在hdfs中的数据:
创建表myu table(伪字符串);
这定义了一个表。
将路径'/user/tom/data.txt'中的数据加载到表my\u table中;
这将把您的数据移动到配置单元的仓库目录中。因为这两个目录都在hdfs上,所以它是即时完成的。
3) 用于r检查http://www.revolutionanalytics.com/

相关问题