简单的spark任务太长,任务太多

carvr3hs  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(219)

我有一个hortonworks hadoop集群,包含以下内容:
ram的8核和16go(namenode、application master、nodemanager、spark master和worker)。
ram的4个核心和8个GO(datanode、nodemanager和worker)。
4个内存和4go内存(datanode、nodemanager和worker)。
4个内存和4go内存(datanode、nodemanager和worker)。
因此,我对spark使用以下配置:

pyspark --master yarn-client --driver-memory 2g --executor-memory 5g --num-executors 4 --executor-cores 3

Spark环境
Spark执行器
我有两个像spark parquets(glob和ind)一样存储的Dataframe:
ind:2.2GB数据(24列5 003 498条记录)
全局:3.5 gb的数据(53列270 338 406条记录)
ind dataframe disque用法
globDataframe的使用
这两个Dataframe按年、月和日划分,年、月和日的数量相同。
我在两个Dataframe上运行一个简单的计数任务。
“ind”Dataframe(小的)需要23分钟,大的“glob”Dataframe需要1.5分钟。
indDataframe计数作业
ind dataframe作业持续时间和任务
全局Dataframe计数作业
glob dataframe作业持续时间和任务
我不明白为什么这个小家伙时间太长,任务太多。
我很感激你们的帮助,谢谢你们

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题