我有一个hortonworks hadoop集群,包含以下内容:
ram的8核和16go(namenode、application master、nodemanager、spark master和worker)。
ram的4个核心和8个GO(datanode、nodemanager和worker)。
4个内存和4go内存(datanode、nodemanager和worker)。
4个内存和4go内存(datanode、nodemanager和worker)。
因此,我对spark使用以下配置:
pyspark --master yarn-client --driver-memory 2g --executor-memory 5g --num-executors 4 --executor-cores 3
Spark环境
Spark执行器
我有两个像spark parquets(glob和ind)一样存储的Dataframe:
ind:2.2GB数据(24列5 003 498条记录)
全局:3.5 gb的数据(53列270 338 406条记录)
ind dataframe disque用法
globDataframe的使用
这两个Dataframe按年、月和日划分,年、月和日的数量相同。
我在两个Dataframe上运行一个简单的计数任务。
“ind”Dataframe(小的)需要23分钟,大的“glob”Dataframe需要1.5分钟。
indDataframe计数作业
ind dataframe作业持续时间和任务
全局Dataframe计数作业
glob dataframe作业持续时间和任务
我不明白为什么这个小家伙时间太长,任务太多。
我很感激你们的帮助,谢谢你们
暂无答案!
目前还没有任何答案,快来回答吧!