spark sbt程序尝试从本地文件系统而不是intellij项目中的hdfs进行读取

wgx48brx 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(343)

我已经安装了hadoop（hadoop-2.7.2.tar.gz）和spark（spark-1.6.0-bin-without-hadoop.tgz）。两者都配置正确，可以一起工作。
我能够按照这个实践教程的scala版本来阅读存储在计算机上的文件 hdfs 并应用als算法给出建议。
但是，当我尝试在intellij ide中执行相同操作时，出现以下错误：

Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/data/movielens/medium

我想我在intellij中丢失了一些vm参数或其他配置，但我不知道它是什么。
有人能给我解释一下这种行为吗？我该怎么解决呢？

hadoop scala apache-spark intellij-idea

来源：https://stackoverflow.com/questions/35383615/spark-sbt-program-tries-to-read-from-local-file-system-instead-of-hdfs-in-intell

2条答案

按热度按时间

bybem2ql1#

假设您使用的是基于linux的操作系统，则可能需要提供本地文件系统中安装数据目录的位置的完整路径。例如

val movieLensHomeDir = "file:///Users/user/training-downloads/data/movielens/medium"
sc.textFile(movieLensHomeDir, "ratings.dat")

将此与hdfs进行比较，在hdfs中，您可能能够给出hdfs中的路径，而不是本地文件系统。

val movieLensHomeDir = "/data/movielens/medium"
sc.textFile(movieLensHomeDir, "ratings.dat")

或者如spark文档所示：
要从spark访问hadoop数据，只需使用hdfs://url（通常是hdfs://:9000/path，但您可以在hadoop namenode的web ui上找到正确的url）。

val movieLensHomeDir = "hdfs://<namenode>:9000/data/movielens/medium"
sc.textFile(movieLensHomeDir, "ratings.dat")

赞(0）回复(0）举报 2021-05-29

vzgqcmou2#

试试这个

//this is your input path
val text_file = sc.textFile("hdfs://...")
//or 
val text_file = sc.textFile("your local path") 

//mapping and reduscing 
val counts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)

//output path
counts.saveAsTextFile("hdfs://...") or
counts.saveAsTextFile("your local file system path")

赞(0）回复(0）举报 2021-05-29

我来回答

spark sbt程序尝试从本地文件系统而不是intellij项目中的hdfs进行读取

2条答案

相关问题

热门标签

最新问答