使用spark合并非常大的配置单元表(准确地说是11个)

vmpqdwk3 于 2021-06-27 发布在 Hive

关注(0)|答案(0)|浏览(320)

我基本上是在替代另一个程序员。
问题描述：有11个配置单元表，每个表有8到11列。所有这些表都有大约5列，它们的名称相似，但值不同。
例如，表a有mobile\u no、date、duration列，表b也有。但价值观是不一样的。其他列在表中具有不同的名称。
在所有表中，数据类型都是string、integer和double，即简单数据类型。字符串数据最多包含100个字符。
每个表包含大约5000万个数据。我有要求合并这11个表采取他们的列，因为它是一个大表。
我们的spark集群有20台物理服务器，每台有36个内核（如果算上虚拟化，则为72个），每个内存为512GB。spark版本2.2.x
我必须将它们与内存和速度有效地结合起来。
你们能帮我解决这个问题吗？
n、 b：如果你有问题，请告诉我

Hive apache-spark pyspark apache-spark-sql pyspark-sql

来源：https://stackoverflow.com/questions/52689364/merge-very-large-hive-tables-11-to-be-precise-using-spark

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

使用spark合并非常大的配置单元表(准确地说是11个)

暂无答案！

相关问题

热门标签

最新问答