在spark中读取配置单元表时，如何增加分区数

ao218c7q 于 2021-06-28 发布在 Hive

关注(0)|答案(0)|浏览(305)

所以，我试着用hivecontext在spark的Hive表中阅读。这个作业基本上把两个表中的数据读入两个Dataframe，然后再转换成rdd。i、然后，根据一个公共密钥加入它们。但是，由于metadatafetchfailedexception（org.apache.spark.shuffle.metadatafetchfailedexception的可能原因是什么：缺少shuffle的输出位置？）。
我希望通过将数据分散到其他节点来避免这种情况。目前，尽管我有800个执行器，但大多数数据都被读入10个节点，每个节点都占用了超过50%的内存。
问题是，在读取操作期间，如何将数据分布到更多的分区？我不想以后重新分区。

val tableDF= hiveContext.read.table("tableName")
                         .select("colId1", "colId2")
                         .rdd
                         .flatMap(sqlRow =>{
                            Array((colId1, colId2))
                         })

Hive apache-spark spark-dataframe HiveContext

来源：https://stackoverflow.com/questions/38906479/how-do-i-increase-the-number-of-partitions-when-i-read-in-a-hive-table-in-spark

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

在spark中读取配置单元表时，如何增加分区数

暂无答案！

相关问题

热门标签

最新问答