关闭。这个问题需要更加突出重点。它目前不接受答案。**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。
6年前关门了。改进这个问题我需要知道如何实现通过hadoop实时分析流量流的解决方案。输入文件类型为.txt我建议采取以下步骤:使用talend将平面文件传输到hdfs(flume比talend更好吗?)将数据从hdfs传输到hive(但如何传输)通过r分析平面文件-->hdfs-->配置单元-->r非常感谢苏菲烷
gorkyyrv1#
1) 如果您的日期已经存储在.txt文件中,那么“hadoop fs-cp”就足够了。flume用于流数据。2) 您不需要将数据从hdfs传输到hive。hive分析存储在hdfs中的数据:创建表myu table(伪字符串);这定义了一个表。将路径'/user/tom/data.txt'中的数据加载到表my\u table中;这将把您的数据移动到配置单元的仓库目录中。因为这两个目录都在hdfs上,所以它是即时完成的。3) 用于r检查http://www.revolutionanalytics.com/
1条答案
按热度按时间gorkyyrv1#
1) 如果您的日期已经存储在.txt文件中,那么“hadoop fs-cp”就足够了。flume用于流数据。
2) 您不需要将数据从hdfs传输到hive。hive分析存储在hdfs中的数据:
创建表myu table(伪字符串);
这定义了一个表。
将路径'/user/tom/data.txt'中的数据加载到表my\u table中;
这将把您的数据移动到配置单元的仓库目录中。因为这两个目录都在hdfs上,所以它是即时完成的。
3) 用于r检查http://www.revolutionanalytics.com/