使用dataproc写入bigquery在使用spark bigquery连接器时很慢

sr4lhrrt 于 2021-07-13 发布在 Spark

关注(0)|答案(1)|浏览(582)

我们有一个spark流应用程序，它从pubsub读取数据并应用一些转换，然后将javadstream转换为dataset，然后将结果写入bigquery normalize表。
下面是示例代码。所有normalize表都在currenttimestamp列上分区。有什么参数可以用来提高写性能吗？

pubSubMessageDStream
                .foreachRDD(new VoidFunction2<JavaRDD<PubSubMessageSchema>, Time>() {
            @Override
            public void call(JavaRDD<PubSubMessageSchema> v1, Time v2) throws Exception {
            Dataset<PubSubMessageSchema> pubSubDataSet = spark.createDataset(v1.rdd(), Encoders.bean(PubSubMessageSchema.class));
                       ---
                       ---
                       ---
                  for (Row payloadName : payloadNameList) {
                           Dataset<Row> normalizedDS = null;
                           if(payloadNameAList.contains(payloadName) {
                                 normalizedDS = dataSet.filter(col(colA.equalTo(<Value>)));
                           } else if(payloadNameBList.contains(payloadName) {
                                 normalizedDS = dataSet.filter(col(colA.equalTo(<Value>)));
                           }
                    normalizedDS.selectExpr(columnsBigQuery).write().format("bigquery")
                   .option("temporaryGcsBucket", gcsBucketName)
                   .option("table", tableName)
                   .option("project", projectId)
                   .option("parentProject", parentProjectId)
                   .mode(SaveMode.Append)
                   .save();
                 }
            }
        }

apache-spark google-bigquery google-cloud-dataproc

来源：https://stackoverflow.com/questions/66337094/writing-to-bigquery-using-dataproc-is-slow-with-spark-bigquery-connector

1条答案

按热度按时间

qv7cva1a1#

写入bigquery需要写入gcs，然后触发bigquery加载作业。你可以试着改变主意 intermediateFormat 查看它是否影响性能-从我们的测试来看，更好的格式取决于模式和数据大小。
此外，在即将发布的连接器版本0.19.0中，有一个针对spark 2.4的datasource v2 api的写实现，它应该可以将性能提高10-15%。

赞(0）回复(0）举报 2021-07-13

我来回答

使用dataproc写入bigquery在使用spark bigquery连接器时很慢

1条答案

相关问题

热门标签

最新问答