hdfs文件系统的url

mtb9vblg 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(766)

我有一些hdfs的数据 /user/Cloudera/Test/* . 我可以通过跑步很好地看到记录 hdfs -dfs -cat Test/* .
现在同样的文件，我需要它在scala中作为rdd读取。我在scala shell中尝试了以下内容。

val file = sc.textFile("hdfs://quickstart.cloudera:8020/user/Cloudera/Test")

然后我写了一些过滤器和for循环来读取单词。但是当我使用 Println 最后，它说找不到文件。
谁能帮我知道在这种情况下hdfs的url是什么。注意：我使用的是cloudera cdh5.0虚拟机

2条答案

如果你想在spark作业中访问你的文件，那么你可以简单地使用url

val file = sc.textFile("/user/Cloudera/Test")

spark将自动检测此文件。您不需要添加localhost作为前缀，因为spark job默认从hdfs目录读取它们。
希望这能解决你的疑问。

不要使用“quickstart.cloudera”和端口，只使用ip地址：

val file = sc.textFile("hdfs://<ip>/user/Cloudera/Test")