简单的spark任务太长，任务太多

carvr3hs 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(220)

我有一个hortonworks hadoop集群，包含以下内容：
ram的8核和16go（namenode、application master、nodemanager、spark master和worker）。
ram的4个核心和8个GO（datanode、nodemanager和worker）。
4个内存和4go内存（datanode、nodemanager和worker）。
4个内存和4go内存（datanode、nodemanager和worker）。
因此，我对spark使用以下配置：

pyspark --master yarn-client --driver-memory 2g --executor-memory 5g --num-executors 4 --executor-cores 3

Spark环境
Spark执行器
我有两个像spark parquets（glob和ind）一样存储的Dataframe：
ind:2.2GB数据（24列5 003 498条记录）
全局：3.5 gb的数据（53列270 338 406条记录）
ind dataframe disque用法
globDataframe的使用
这两个Dataframe按年、月和日划分，年、月和日的数量相同。
我在两个Dataframe上运行一个简单的计数任务。
“ind”Dataframe（小的）需要23分钟，大的“glob”Dataframe需要1.5分钟。
indDataframe计数作业
ind dataframe作业持续时间和任务
全局Dataframe计数作业
glob dataframe作业持续时间和任务
我不明白为什么这个小家伙时间太长，任务太多。
我很感激你们的帮助，谢谢你们

hadoop pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/51004412/simple-spark-job-take-too-long-with-too-many-tasks

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

简单的spark任务太长，任务太多

暂无答案！

相关问题

热门标签

最新问答