用java实现spark中的hadoopMap

v09wglhw  于 2021-05-27  发布在  Hadoop
关注(0)|答案(2)|浏览(368)

我有一个文件名myfile,格式如下:

1,A,2,B
1,A,3,C
2,B,4,D

我要将每行的第二个索引值Map到行本身:

A -> 1,A,2,B
A -> 1,A,3,C
B -> 2,B,4,D

如何使用spark java实现这一点?

zqdjd7g9

zqdjd7g91#

我就是这样做到的

JavaPairRDD<String, String> pairs = myFile.mapToPair(s->new Tuple2<>(s.split(",")[1], s));
q43xntqr

q43xntqr2#

看起来你在读csv。spark本机支持spark 2.x之后的版本
不要使用sparkcontext使用sparksession
只是为了打印一个Dataframe,你需要这样的东西

spark.csv("C:\\myFile").show()

相关问题