我在云中有一个服务器(隐藏在vpn后面),我在这个服务器上运行单节点elasticsearch集群。在elasticsearch的这个示例中,我有一个索引(假设它被命名为metrics data)——它占用8gb的大小。
我想部署gcpdataproc集群,并使用spark和jupyter对来自这个远程elasticsearch集群的度量数据索引执行一些分析。
最简单的方法是什么?
我在云中有一个服务器(隐藏在vpn后面),我在这个服务器上运行单节点elasticsearch集群。在elasticsearch的这个示例中,我有一个索引(假设它被命名为metrics data)——它占用8gb的大小。
我想部署gcpdataproc集群,并使用spark和jupyter对来自这个远程elasticsearch集群的度量数据索引执行一些分析。
最简单的方法是什么?
1条答案
按热度按时间tkqqtvp11#
好吧,所以我决定:
使用将索引从elasticsearch群集转储到本地计算机
elasticdump
:将文件上载到google云存储(gcs):
使用云存储连接器(默认安装在gcp dataproc上)将数据加载到spark中
如果
elasticdump
直接输出到gcp(就像amazons3一样)。不知道这是不是最简单的,但对我有用。