JobConf job = new JobConf();
// Retrieves gs://foo-bucket/myapp/mylib.jar as a cached file.
DistributedCache.addFileToClassPath(new Path("/myapp/mylib.jar"), job);
JobConf job = new JobConf();
// Retrieves gs://other-bucket/myapp/mylib.jar as a cached file.
DistributedCache.addFileToClassPath(new Path("gs://other-bucket/myapp/mylib.jar"), job);
1条答案
按热度按时间gdrx4gfi1#
在google compute engine上运行hadoop时,将google cloud storage connector for hadoop作为“默认文件系统”,gcs连接器可以完全按照对待hdfs的方式进行处理,包括在distributedcache中使用。所以,要访问google云存储中的文件,您可以完全像使用hdfs一样使用它,无需更改任何内容。例如,如果您使用gcs连接器部署了集群
CONFIGBUCKET
设置为foo-bucket
,并且您有本地文件要放在distributedcache中,您可以执行以下操作:在你的hadoop工作中:
如果您想访问不同于
CONFIGBUCKET
,只需使用gs://
而不是hdfs://
:然后是java