当您使用sc.textfile在spark中读取文件时,它会提供元素,其中每个元素都是一行。但是,我希望每个元素由n行组成。我也不能使用分隔符,因为该文件中没有分隔符。那么,怎样才能让spark给我多行元素呢?我对使用nlineinputformat类这样做很感兴趣。在spark中可以这样做吗?我可以看到mapreduce的例子,但我不知道如何在spark中转换。
xdnvmnnf1#
是的,如果你是从hadoop获取文件的话。你应该可以这样做:
val records = sc.newAPIHadoopRDD(hadoopConf,classOf[NLineInputFormat],classOf[LongWritable],classOf[Text])
这是api文件。
1条答案
按热度按时间xdnvmnnf1#
是的,如果你是从hadoop获取文件的话。你应该可以这样做:
这是api文件。