我在linux上以独立模式使用pyspark和spark2.4,通过kafka使用jupyter笔记本(目前正在测试)处理大量传入的数据。我想将这些选项添加到此笔记本中,以防止/tmp/目录在几个小时后充满几十GB:
spark.worker.cleanup.enabled=true
spark.worker.cleanup.appDataTtl=120
但这些位置不起作用:
spark的默认配置(spark/conf/spark env.sh)似乎根本没有被juypter笔记本使用:
spark\u worker\u opts=“spark.worker.cleanup.enabled=true spark.worker.cleanup.appdatattl=120”
因此,我在~/.local/share/jupyter/kernels/python3-spark1/kernel.json中创建了一个sperate内核配置,我可以在jupyterhub中选择它,它真正用于ram调整,我可以在htop中看到:
“env”:{“pyspark\u submit\u args”:“--主本地[*]--conf spark.worker.cleanup.enabled=true--conf=spark.worker.cleanup.appdatattl=120驱动程序内存145g--执行器内存50g pyspark shell”
但是/tmp仍然有几十场演出。
我也在jupyter牢房里试过这个“魔法”,但也没用。
你知道如何正确配置jupyter笔记本电脑吗?
1条答案
按热度按时间ymzxtsji1#
仅应用于窗体中的辅助进程的配置属性
"-Dx=y"
```export SPARK_WORKER_OPTS="$SPARK_WORKER_OPTS -Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.interval=60 -Dspark.worker.cleanup.appDataTtl=120"
spark-worker-x:
image: spark-worker
container_name: spark-worker-x
environment:
- SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.interval=60 -Dspark.worker.cleanup.appDataTtl=120"