我发现使用googlecloudshell访问hadoop数据文件系统非常困难(我在googlecloud平台上创建了一个集群只是为了学习)。通用的“hdfs-dfs-ls”或“hadoop-fs-ls gs://”似乎不起作用,我已经做了很多尝试性的错误来找出原因。有人能帮我吗?谢谢:)
zhte4eai1#
通过hadoop cli访问hdfs的最简单方法是在dataproc集群主节点上使用ssh,并在那里使用cli实用程序:
gcloud compute ssh ${DATAPROC_CLUSTER_NAME}-m hdfs dfs -ls hadoop fs -ls gs:/
它不能在cloudshell中工作,因为它没有预装hadoop cli实用程序。
7y4bm7vi2#
您可以使用云存储连接器,它提供了文件系统抽象的实现,并且在不同的hdp版本中提供,以方便访问gcs,然后您应该能够在hadoop shell中使用“hadoop fs-ls gs://configbucket/dir/file”。请检查本教程,并确保您正确配置了对google云存储的访问权限。
2条答案
按热度按时间zhte4eai1#
通过hadoop cli访问hdfs的最简单方法是在dataproc集群主节点上使用ssh,并在那里使用cli实用程序:
它不能在cloudshell中工作,因为它没有预装hadoop cli实用程序。
7y4bm7vi2#
您可以使用云存储连接器,它提供了文件系统抽象的实现,并且在不同的hdp版本中提供,以方便访问gcs,然后您应该能够在hadoop shell中使用“hadoop fs-ls gs://configbucket/dir/file”。请检查本教程,并确保您正确配置了对google云存储的访问权限。