我对使用云服务还很陌生,在谷歌的云平台上导航相当吓人。当提到googledataproc时,他们会为hadoop、spark和hive做广告。我的问题是,有 Impala 吗?我想用这四种工具做一些基准测试项目,我需要ApacheImpala和SideSpark/hive。
x0fgdtte1#
dataproc为您提供了对主服务器和工作服务器的ssh访问,因此可以安装其他软件,并且根据impala文档,您需要:确保 Impala 的需求。通过从源代码构建在集群上设置impala。请记住,建议在每个datanode中安装impalad守护程序。
mu0hgdu02#
您还可以尝试使用dataproc的另一个新示例,而不是使用默认示例。例如,可以使用 HUE (Hadoop User Experience) 它是一个处理cloudera构建的hadoop集群的接口。这里的优点是hue有一个默认组件apacheimpala。它也有Pig,Hive等,所以这是一个很好的解决方案使用 Impala 。另一个解决方案是从一开始就创建自己的集群,但这不是一个好主意(至少您希望自定义所有内容)。用这种方法,你可以安装 Impala 。以下是一个链接,以获取更多信息:https://github.com/googlecloudplatform/dataproc-initialization-actions/tree/master/hue
HUE (Hadoop User Experience)
gstyhher3#
不,dataproc是一个支持hadoop、spark、hive和pig的集群;使用默认图像。有关dataproc的本机映像列表的详细信息,请查看此链接https://cloud.google.com/dataproc/docs/concepts/versioning/dataproc-versions
js5cn81o4#
CloudDataProc在集群上默认支持hadoop、spark、hive、pig。您可以安装更多可选支持的组件,如zookeeper、jyputer、anaconda、kerberos、druid和presto(您可以在这里找到完整的列表)。此外,您可以使用初始化操作安装大量开放源代码组件。impala不支持作为可选组件,并且还没有针对它的初始化操作脚本。您可以使用hdfs让它在dataproc上工作,但要使它在gcs上工作,可能需要进行非常重要的更改。
4条答案
按热度按时间x0fgdtte1#
dataproc为您提供了对主服务器和工作服务器的ssh访问,因此可以安装其他软件,并且根据impala文档,您需要:
确保 Impala 的需求。
通过从源代码构建在集群上设置impala。
请记住,建议在每个datanode中安装impalad守护程序。
mu0hgdu02#
您还可以尝试使用dataproc的另一个新示例,而不是使用默认示例。
例如,可以使用
HUE (Hadoop User Experience)
它是一个处理cloudera构建的hadoop集群的接口。这里的优点是hue有一个默认组件apacheimpala。它也有Pig,Hive等,所以这是一个很好的解决方案使用 Impala 。另一个解决方案是从一开始就创建自己的集群,但这不是一个好主意(至少您希望自定义所有内容)。用这种方法,你可以安装 Impala 。
以下是一个链接,以获取更多信息:
https://github.com/googlecloudplatform/dataproc-initialization-actions/tree/master/hue
gstyhher3#
不,dataproc是一个支持hadoop、spark、hive和pig的集群;使用默认图像。
有关dataproc的本机映像列表的详细信息,请查看此链接
https://cloud.google.com/dataproc/docs/concepts/versioning/dataproc-versions
js5cn81o4#
CloudDataProc在集群上默认支持hadoop、spark、hive、pig。您可以安装更多可选支持的组件,如zookeeper、jyputer、anaconda、kerberos、druid和presto(您可以在这里找到完整的列表)。此外,您可以使用初始化操作安装大量开放源代码组件。
impala不支持作为可选组件,并且还没有针对它的初始化操作脚本。您可以使用hdfs让它在dataproc上工作,但要使它在gcs上工作,可能需要进行非常重要的更改。