我有一个cdh集群在aws上运行。还有一组运行在连接到ecs集群的不同ec2机器上的服务。所有都在一个vpn中。我的用例是将运行在ec2上的外部服务中的数据写入cdh hadoop集群。我正在努力找出最好的办法。请建议我可能的方法在python中如何实现这一点。
vwkv1x7d1#
apachehadoop提供了webhdfs,它是hdfs操作的http接口。这允许您使用任何pythonhttp客户机库(如 httplib , urllib 或者 urllib2 . 实际上,您可以使用任何提供http客户机库的编程语言访问webhdfs。您还可以使用pydoop,它提供了python和hdfs之间更直接的集成。pydoop实现使用libhdfs,它是标准hdfs java客户机上的一个c Package 器。因此,它将直接使用hdfs-rpc协议而不是http。
httplib
urllib
urllib2
1条答案
按热度按时间vwkv1x7d1#
apachehadoop提供了webhdfs,它是hdfs操作的http接口。这允许您使用任何pythonhttp客户机库(如
httplib
,urllib
或者urllib2
. 实际上,您可以使用任何提供http客户机库的编程语言访问webhdfs。您还可以使用pydoop,它提供了python和hdfs之间更直接的集成。pydoop实现使用libhdfs,它是标准hdfs java客户机上的一个c Package 器。因此,它将直接使用hdfs-rpc协议而不是http。