我对spark是个新手,我试着把所有的html文件放在一个目录中,然后把每个文件的内容分别传递给另一个方法(如果可能的话,还有确切的路径),这个方法只能用java来处理html(我们用这个来从html中提取信息)。提前谢谢。
y1aodyip1#
您可以使用sc.wholetextfiles方法创建rdd,并在rdd上使用map transformarion应用处理逻辑。示例代码在这里
> JavaSparkContext jsc = new JavaSparkContext(sc); > JavaPairRDD<String,String> rdd = jsc.wholeTextFiles(path); > for(Tuple2<String, String> str : rdd.toArray()) { System.out.println("+++++++++++++++++++++++++++++++++++++++++++"); > System.out.println("File name " + str._1); > System.out.println("+++++++++++++++++++++++++++++++++++++++++++"); > System.out.println(); > System.out.println("-------------------------------------------"); > System.out.println("content " + str._2); > System.out.println("-------------------------------------------"); > }
1条答案
按热度按时间y1aodyip1#
您可以使用sc.wholetextfiles方法创建rdd,并在rdd上使用map transformarion应用处理逻辑。示例代码在这里