hdfs文件系统的url

mtb9vblg  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(766)

我有一些hdfs的数据 /user/Cloudera/Test/* . 我可以通过跑步很好地看到记录 hdfs -dfs -cat Test/* .
现在同样的文件,我需要它在scala中作为rdd读取。我在scala shell中尝试了以下内容。

  1. val file = sc.textFile("hdfs://quickstart.cloudera:8020/user/Cloudera/Test")

然后我写了一些过滤器和for循环来读取单词。但是当我使用 Println 最后,它说找不到文件。
谁能帮我知道在这种情况下hdfs的url是什么。注意:我使用的是cloudera cdh5.0虚拟机

8fsztsew

8fsztsew1#

如果你想在spark作业中访问你的文件,那么你可以简单地使用url

  1. val file = sc.textFile("/user/Cloudera/Test")

spark将自动检测此文件。您不需要添加localhost作为前缀,因为spark job默认从hdfs目录读取它们。
希望这能解决你的疑问。

u59ebvdq

u59ebvdq2#

不要使用“quickstart.cloudera”和端口,只使用ip地址:

  1. val file = sc.textFile("hdfs://<ip>/user/Cloudera/Test")

相关问题