hadoop—从目录中读取html文件,并将每个文件的内容分别发送到java spark中的方法中进行处理

pxiryf3j  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(314)

我对spark是个新手,我试着把所有的html文件放在一个目录中,然后把每个文件的内容分别传递给另一个方法(如果可能的话,还有确切的路径),这个方法只能用java来处理html(我们用这个来从html中提取信息)。提前谢谢。

y1aodyip

y1aodyip1#

您可以使用sc.wholetextfiles方法创建rdd,并在rdd上使用map transformarion应用处理逻辑。示例代码在这里

>       JavaSparkContext jsc = new JavaSparkContext(sc);
>       JavaPairRDD<String,String> rdd = jsc.wholeTextFiles(path);
>               for(Tuple2<String, String> str : rdd.toArray()) {           System.out.println("+++++++++++++++++++++++++++++++++++++++++++");
>           System.out.println("File name " + str._1);
>           System.out.println("+++++++++++++++++++++++++++++++++++++++++++");
>           System.out.println();
>           System.out.println("-------------------------------------------");
>           System.out.println("content " + str._2);
>           System.out.println("-------------------------------------------");
>       }

相关问题