用java实现spark中的hadoopMap

v09wglhw 于 2021-05-27 发布在 Hadoop

关注(0)|答案(2)|浏览(368)

我有一个文件名myfile，格式如下：

1,A,2,B
1,A,3,C
2,B,4,D

我要将每行的第二个索引值Map到行本身：

A -> 1,A,2,B
A -> 1,A,3,C
B -> 2,B,4,D

如何使用spark java实现这一点？

hadoop mapreduce apache-spark

来源：https://stackoverflow.com/questions/60473613/mapping-in-spark-using-java

2条答案

按热度按时间

我就是这样做到的

JavaPairRDD<String, String> pairs = myFile.mapToPair(s->new Tuple2<>(s.split(",")[1], s));

赞(0）回复(0）举报 2021-05-27

看起来你在读csv。spark本机支持spark 2.x之后的版本
不要使用sparkcontext使用sparksession
只是为了打印一个Dataframe，你需要这样的东西

spark.csv("C:\\myFile").show()

赞(0）回复(0）举报 2021-05-27

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 3个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 3个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 3个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 3个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 3个月前