如何读取spark中的多行元素?

de90aj5v  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(252)

当您使用sc.textfile在spark中读取文件时,它会提供元素,其中每个元素都是一行。但是,我希望每个元素由n行组成。我也不能使用分隔符,因为该文件中没有分隔符。那么,怎样才能让spark给我多行元素呢?
我对使用nlineinputformat类这样做很感兴趣。在spark中可以这样做吗?我可以看到mapreduce的例子,但我不知道如何在spark中转换。

xdnvmnnf

xdnvmnnf1#

是的,如果你是从hadoop获取文件的话。你应该可以这样做:

val records = sc.newAPIHadoopRDD(hadoopConf,classOf[NLineInputFormat],classOf[LongWritable],classOf[Text])

这是api文件。

相关问题