从hdfs、scala spark读取文件

muk1a3rh 于 2021-07-09 发布在 Spark

关注(0)|答案(1)|浏览(486)

我试图从hdfs读取一个文件，但是我在这里遇到了一个问题。文件无法存在，因此我必须检查是否存在。如果文件存在，我读取该文件，否则我读取一个空的df。
所以我要尝试的是：

val fs: FilySystem = FileSystem.get(new URI(path), new Configuration())
if (fs.exists(new org.apache.hadoop.fs.Path(s"$Path"))) {
    val df6 = spark.read.parquet(path)
} else {
    val df6 = df1.limit(0)
}
val df6.show()

但是我在jupyter上发现了以下错误：

Message: <console>:28: error: not found: type FileSystem

我做错了什么？

hadoop hdfs scala apache-spark

来源：https://stackoverflow.com/questions/66742562/reading-a-file-from-hdfs-scala-spark

1条答案

按热度按时间

roejwanj1#

试试这样的方法（调整一下）-

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.FileSystem
import org.apache.hadoop.fs.Path
import java.net.URI
import scala.io.Source
val hdfs = FileSystem.get(new URI("hdfs://cluster:8020/"), new Configuration())
val path = new Path("/HDFS/FILE/LOCATION")
val stream = hdfs.open(path)
val temp = Source.fromInputStream(stream).getLines()

赞(0）回复(0）举报 2021-07-09

我来回答

从hdfs、scala spark读取文件

1条答案

相关问题

热门标签

最新问答