我有一个包含多个文本文件的目录,我访问spark中的所有文件,如下所示,
JavaRDD<String> filesRDD = sc.textFile(directoryName);
在每个文件中,第一行是包含一些Map值的头。例如:-
"1,apple|4,banana|3,lemon"
这意味着,如果在内容中有一个“3”,它将Map到“lemon”。
内容示例如下:,
I like 1
John eat 3 and 1
等等。
现在我需要做的是,首先从内容中筛选行,然后从Map中指定原始值。例如,字符串的第一个过滤器 "like"
我得到了 "I like 1"
然后,我替换为Map,然后 "I like apple"
请注意,此Map头与每个文件不同。我该怎么做?因为我是spark的新手,所以我对如何实现这个目标没有太多想法。
1条答案
按热度按时间carvr3hs1#
你想要这样的东西吗?