我以json格式从在线源代码中提取数据,并通过apacheflume将其存储到hdfs中。现在它像hadoop那样创建多个文件。现在我想从这些数据(从所有这些文件)中搜索一些东西,并获得与之相关的完整信息。解决办法是什么?
w80xi6nr1#
您可以开发自己的脚本,用mapreduce或spark在hdfs中搜索。你有另一个解决办法,你可以用Hive或Pig。清管器指南:http://archive.cloudera.com/cdh/3/pig/tutorial.html Hive指南:https://cwiki.apache.org/confluence/display/hive/languagemanual
1条答案
按热度按时间w80xi6nr1#
您可以开发自己的脚本,用mapreduce或spark在hdfs中搜索。你有另一个解决办法,你可以用Hive或Pig。清管器指南:http://archive.cloudera.com/cdh/3/pig/tutorial.html Hive指南:https://cwiki.apache.org/confluence/display/hive/languagemanual