使用spark合并非常大的配置单元表(准确地说是11个)

vmpqdwk3  于 2021-06-27  发布在  Hive
关注(0)|答案(0)|浏览(288)

我基本上是在替代另一个程序员。
问题描述:有11个配置单元表,每个表有8到11列。所有这些表都有大约5列,它们的名称相似,但值不同。
例如,表a有mobile\u no、date、duration列,表b也有。但价值观是不一样的。其他列在表中具有不同的名称。
在所有表中,数据类型都是string、integer和double,即简单数据类型。字符串数据最多包含100个字符。
每个表包含大约5000万个数据。我有要求合并这11个表采取他们的列,因为它是一个大表。
我们的spark集群有20台物理服务器,每台有36个内核(如果算上虚拟化,则为72个),每个内存为512GB。spark版本2.2.x
我必须将它们与内存和速度有效地结合起来。
你们能帮我解决这个问题吗?
n、 b:如果你有问题,请告诉我

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题