java—spark中的分区和任务数

ut6juiuv 于 2021-07-12 发布在 Java

关注(0)|答案(0)|浏览(221)

我正在运行一个作业读取2压缩文件与

JavaPairRDD<String, PortableDataStream> zipFilesRdd = sc.binaryFiles("*.zip"));

有时分区大小是2，有时是1。
使用flatmap函数，我创建了一个文档列表（zip文件的所有条目），并将其转换为Dataframe。重新分区后，此Dataframe的分区大小为16：

Column column = new Column("applicationYear");
int numberOfPartitions = (int) dataFrame.select("applicationYear").distinct().count();
Dataset<Row> applicationYear = dataFrame.repartition(numberOfPartitions, column);

共有19个分区，即所需的分区计数。但是，始终有255个任务以以下开头：

Dataset<String> keys = applicationYear.map(new MapPostProcessLoadVendor(), Encoders.STRING());
keys.collect();

为什么忽略Dataframe的分区数（有和没有重新分区）？在zipfilesrdd的情况下，使用从1到2的重新分区。
spark-3.1.1，postgres数据库。

Java apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/67177655/number-of-partitions-and-tasks-in-spark

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

java—spark中的分区和任务数

暂无答案！

相关问题

热门标签

最新问答