ambari hadoop/spark和elasticsearch ssl集成

rwqw0loc  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(388)

我通过ambari安装了hadoop/spark集群(​hdp-2.6.2.0)。现在我已经运行了集群,我想向其中输入一些数据。我们有一个elasticsearch集群(5.6版)。我想设置es hadoop连接器(https://www.elastic.co/guide/en/elasticsearch/hadoop/current/doc-sections.html)elastic提供了一些数据,所以我可以将一些数据从elastic转储到hdfs。我用jar抓起zip文件,按照cern博客上的说明:
https://db-blog.web.cern.ch/blog/prasanth-kothuri/2016-05-integrating-hadoop-and-elasticsearch-%e2%80%93-part-2-%e2%80%93-writing-and-querying
到目前为止,这似乎是合理的,但我有一些问题:
我们在elasticsearch集群上设置了ssl/tls,所以当我执行查询时,使用blog上的示例显然会出错。我需要在hadoop/spark和elastic方面做些什么才能使这种通信工作?
我读到,我需要将这些jar添加到spark类路径中—是否有一个经验法则,可以将这些jar放在集群中的什么位置?我假设在我的spark客户端节点上,但我不确定。另外,一旦我把它们放在那里,有没有办法将它们添加到类路径中,以便我的所有节点/客户机节点都具有相同的类路径?也许Ambari的某些东西提供了这个?
基本上,我要找的是能够从spark预执行对es的查询,该查询触发一个作业,该作业告诉es将“x”数量的数据推送到我的hdfs。根据我在elastic网站上看到的内容,我认为它应该是这样工作的,但是我对文档感到困惑。这是缺乏和困惑我和我的弹性团队。有人能提供一些明确的方向或一些关于我需要做什么来设置这个清晰?

hfyxw5xn

hfyxw5xn1#

对于项目设置部分的问题,你可以看看
https://github.com/zouzias/elasticsearch-spark-example
它是一个集成了elasticsearch和spark的项目模板。

相关问题