如何配置java spark sparksession samplesize

snz8szmq  于 2021-06-25  发布在  Hive
关注(0)|答案(1)|浏览(325)

我是java spark的新手。
我目前对mongodbetl到hive有问题,这可能会导致字段具有不同的数据类型。所以我想增加样本大小,但我只看到scala的例子,而我使用java,有人知道我是否正确地增加了samplesize?

SparkSession spark = SparkSession.builder()
                .master("local[2]")
                .appName("SparkReadMgToHive")
                .config("spark.sql.warehouse.dir", warehouseLocation)
                .config("spark.mongodb.input.uri", "mongodb://localhost:27017/test.testcollection")
                .config("sampleSize", 50000)
                .enableHiveSupport()
                .getOrCreate();

非常感谢

n53p2ov0

n53p2ov01#

是的 spark.mongodb.input.sampleSize ```
SparkSession spark = SparkSession.builder()
.master("local[2]")
.appName("SparkReadMgToHive")
.config("spark.sql.warehouse.dir", warehouseLocation)
.config("spark.mongodb.input.uri", "mongodb://localhost:27017/test.testcollection")
.config("spark.mongodb.input.sampleSize", 50000)
.enableHiveSupport()
.getOrCreate();

相关问题