在其教程中有一个单词计数示例:
JavaRDD<String> textFile = spark.textFile("hdfs://...");
JavaRDD<String> words = textFile.flatMap(new FlatMapFunction<String, String>() {
public Iterable<String> call(String s) { return Arrays.asList(s.split(" ")); }
});
JavaPairRDD<String, Integer> pairs = words.mapToPair(new PairFunction<String, String, Integer>() {
public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); }
});
JavaPairRDD<String, Integer> counts = pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {
public Integer call(Integer a, Integer b) { return a + b; }
});
counts.saveAsTextFile("hdfs://...");
不过,我已经有一个javapairdd作为 words
而不是像javardd那样:
JavaPairRDD<String, WebPage> myRDD
并希望对其进行字数统计(从hbase数据库检索)
那么,我该怎么数词呢?
2条答案
按热度按时间nnvyjq4y1#
代码被分成多行,只是为了解释用法。你可以在一条线上把它都买下来。
gj3fmq9x2#
你也可以做一些类似的事情。假设网页有一个函数
getText()
(我知道它可能没有确切的方法)你可以这样写:从这里你现有的字数计算代码将发挥作用。