如何读取spark中的多行元素？

de90aj5v 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(259)

当您使用sc.textfile在spark中读取文件时，它会提供元素，其中每个元素都是一行。但是，我希望每个元素由n行组成。我也不能使用分隔符，因为该文件中没有分隔符。那么，怎样才能让spark给我多行元素呢？
我对使用nlineinputformat类这样做很感兴趣。在spark中可以这样做吗？我可以看到mapreduce的例子，但我不知道如何在spark中转换。

hadoop hdfs apache-spark

来源：https://stackoverflow.com/questions/36052480/how-to-read-multiple-line-elements-in-spark

1条答案

按热度按时间

xdnvmnnf1#

是的，如果你是从hadoop获取文件的话。你应该可以这样做：

val records = sc.newAPIHadoopRDD(hadoopConf,classOf[NLineInputFormat],classOf[LongWritable],classOf[Text])

这是api文件。

赞(0）回复(0）举报 2021-06-02

我来回答

如何读取spark中的多行元素？

1条答案

相关问题

热门标签

最新问答