我有一些hdfs的数据 /user/Cloudera/Test/*
. 我可以通过跑步很好地看到记录 hdfs -dfs -cat Test/*
.
现在同样的文件,我需要它在scala中作为rdd读取。我在scala shell中尝试了以下内容。
val file = sc.textFile("hdfs://quickstart.cloudera:8020/user/Cloudera/Test")
然后我写了一些过滤器和for循环来读取单词。但是当我使用 Println
最后,它说找不到文件。
谁能帮我知道在这种情况下hdfs的url是什么。注意:我使用的是cloudera cdh5.0虚拟机
2条答案
按热度按时间8fsztsew1#
如果你想在spark作业中访问你的文件,那么你可以简单地使用url
spark将自动检测此文件。您不需要添加localhost作为前缀,因为spark job默认从hdfs目录读取它们。
希望这能解决你的疑问。
u59ebvdq2#
不要使用“quickstart.cloudera”和端口,只使用ip地址: