hadoop—从目录中读取html文件，并将每个文件的内容分别发送到java spark中的方法中进行处理

pxiryf3j 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(314)

我对spark是个新手，我试着把所有的html文件放在一个目录中，然后把每个文件的内容分别传递给另一个方法（如果可能的话，还有确切的路径），这个方法只能用java来处理html（我们用这个来从html中提取信息）。提前谢谢。

来源：https://stackoverflow.com/questions/35996326/read-html-files-from-a-directory-and-send-content-of-each-file-individually-to-p

1条答案

按热度按时间

y1aodyip1#

您可以使用sc.wholetextfiles方法创建rdd，并在rdd上使用map transformarion应用处理逻辑。示例代码在这里

>       JavaSparkContext jsc = new JavaSparkContext(sc);
>       JavaPairRDD<String,String> rdd = jsc.wholeTextFiles(path);
>               for(Tuple2<String, String> str : rdd.toArray()) {           System.out.println("+++++++++++++++++++++++++++++++++++++++++++");
>           System.out.println("File name " + str._1);
>           System.out.println("+++++++++++++++++++++++++++++++++++++++++++");
>           System.out.println();
>           System.out.println("-------------------------------------------");
>           System.out.println("content " + str._2);
>           System.out.println("-------------------------------------------");
>       }

赞(0）回复(0）举报 2021-06-02

我来回答

hadoop—从目录中读取html文件，并将每个文件的内容分别发送到java spark中的方法中进行处理

1条答案

相关问题

热门标签

最新问答