在elasticsearch haoop中合并文档，使用es sparksql创建多个键值对

yruzcnhs 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(356)

目前elasticsearch hadoop正在将数据集/rdd转换为具有1对1Map的文档，即数据集中的一行转换为一个文档。在我们的场景中，我们是这样做的
为了“统一”

PUT spark/docs/1
{
"_k":"one",
"_k":"two",
"_k":"three" // large sets , we dont need to store much, we just want to map multiple keys to single value.
"_v" :"key:
}

GET spark/docs/_search
{
"query" : {
  "constant_score" : {
    "filter" : {
      "terms" : {
        "_k" : ["one"] // all values work.
        }
      }
    }
  }
}

有什么建议我们如何实施以上，如果有更好的策略，请建议。
下面的代码是不工作的，但我正在努力实现下面的东西在理论上

final Dataset<String> df = spark.read().csv("src/main/resources/star2000.csv").select("_c1").dropDuplicates().as(Encoders.STRING());
  final Dataset<ArrayList> arrayListDataset = df.mapPartitions(new MapPartitionsFunction<String, ArrayList>() {
        @Override
        public Iterator<ArrayList> call(Iterator<String> iterator) throws Exception {
            ArrayList<String> s = new ArrayList<>();
            iterator.forEachRemaining(it -> s.add(it));
            return Iterators.singletonIterator(s);
        }
    }, Encoders.javaSerialization(ArrayList.class));
  JavaEsSparkSQL.saveToEs(arrayListDataset,"spark/docs");

我不想在一个列表中收集完整的数据集，因为它可能导致oom，所以计划是获取每个分区的列表，并根据分区键对其进行索引。

hadoop Algorithm elasticsearch-spark

来源：https://stackoverflow.com/questions/41358722/merge-documents-in-elasticsearch-haoop-create-multi-key-value-pairs-using-es-sp

2条答案

按热度按时间

dw1jzc5e1#

这将有助于张贴一些源代码，你正在使用的问题也不清楚你要实现什么。
我假设您想将一个数组发布到键字段（\u k）并将另一个值发布到值字段（\u v）？
因此，您可以创建一个javapairrdd并将其保存到elasticsearch，如下所示：

String[] keys = {"one", "two", "three"};
String value = "key";

List<Tuple2<String[],String>> l = new ArrayList<Tuple2<String[],String>>();
l.add(new Tuple2<String[],String>(keys, value));

JavaPairRDD<String[],String> R = ctx.parallelizePairs(l);

JavaEsSpark.saveToEs(R,"index/type");

赞(0）回复(0）举报 2021-05-29

olqngx592#

使用pojo作为

Document{
   String[] vals,
   String key
}

和下面的代码片段

Dataset<String> df = spark.sqlContext().read().parquet(params.getPath())
                        .select(params.getColumnName())
                        .as(Encoders.STRING());

final Dataset<Document> documents = df.coalesce(numPartitions).mapPartitions(iterator -> {
       final Set<String> set = Sets.newHashSet(iterator);
       Document d = new Document(set.toArray(new String[set.size()]),"key1");
       return Iterators.singletonIterator(d);}, Encoders.bean(Document.class));
JavaEsSparkSQL.saveToEs(documents, params.getTableIndexName() + "/"+params.getTableIndexType());

这将创建上面的数组索引。

赞(0）回复(0）举报 2021-05-29

我来回答

在elasticsearch haoop中合并文档，使用es sparksql创建多个键值对

2条答案

相关问题

热门标签

最新问答