我有一个文件名myfile,格式如下:
1,A,2,B 1,A,3,C 2,B,4,D
我要将每行的第二个索引值Map到行本身:
A -> 1,A,2,B A -> 1,A,3,C B -> 2,B,4,D
如何使用spark java实现这一点?
zqdjd7g91#
我就是这样做到的
JavaPairRDD<String, String> pairs = myFile.mapToPair(s->new Tuple2<>(s.split(",")[1], s));
q43xntqr2#
看起来你在读csv。spark本机支持spark 2.x之后的版本不要使用sparkcontext使用sparksession只是为了打印一个Dataframe,你需要这样的东西
spark.csv("C:\\myFile").show()
2条答案
按热度按时间zqdjd7g91#
我就是这样做到的
q43xntqr2#
看起来你在读csv。spark本机支持spark 2.x之后的版本
不要使用sparkcontext使用sparksession
只是为了打印一个Dataframe,你需要这样的东西