我已经安装了hadoop(hadoop-2.7.2.tar.gz)和spark(spark-1.6.0-bin-without-hadoop.tgz)。两者都配置正确,可以一起工作。
我能够按照这个实践教程的scala版本来阅读存储在计算机上的文件 hdfs
并应用als算法给出建议。
但是,当我尝试在intellij ide中执行相同操作时,出现以下错误:
Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/data/movielens/medium
我想我在intellij中丢失了一些vm参数或其他配置,但我不知道它是什么。
有人能给我解释一下这种行为吗?我该怎么解决呢?
2条答案
按热度按时间bybem2ql1#
假设您使用的是基于linux的操作系统,则可能需要提供本地文件系统中安装数据目录的位置的完整路径。例如
将此与hdfs进行比较,在hdfs中,您可能能够给出hdfs中的路径,而不是本地文件系统。
或者如spark文档所示:
要从spark访问hadoop数据,只需使用hdfs://url(通常是hdfs://:9000/path,但您可以在hadoop namenode的web ui上找到正确的url)。
vzgqcmou2#
试试这个