pyspark 我在哪里可以找到有关Spark Physical计划所有步骤的详细信息?

vaj7vani  于 2024-01-06  发布在  Spark
关注(0)|答案(2)|浏览(197)

所以我是全新的Spark,我试图使用Spark WebUI来阅读计划,dags和类似的东西。老实说,我发现缺乏关于spark物理,逻辑e.t.c计划的信息非常令人不安。例如,我一直在寻找2个小时,试图在物理计划中找到有关BatchScan步骤的信息。所以我的问题是:有没有某种百科全书来解释所有的参数?有没有至少某种备忘录来解释一些基本的spark查询计划步骤?
先谢谢你!

e37o9pze

e37o9pze1#

在我看来,Spark SQL细节的最佳单一知识来源是Jacek Laskowski的这本书:The Internals of Spark SQL
在这里,您可以找到组件的高级描述以及每个步骤的详细描述(您可以尝试使用搜索来查找BatchScan的文档)
您也可以随时查看Spark源代码,例如,您可以在这里看到BatchScanExec的代码

ssgvzors

ssgvzors2#

一个你可能会发现有用的Apache Spark资源的精选列表。专注于不同用例的Apache Spark资源。它包括以下资源:

  • 链接
  • 教程
  • 课程
  • 论文
  • MOOCs
  • 讲习班
  • 使用Spark的项目
  • Docker镜像
  • 杂项
  • 工具
  • 视频

第一个链接是herehere
一般来说,你可以在上面的链接中找到大量的信息,通过与Apache Spark相关的最新资源来扩展你的知识,这些资源包括工具,书籍,论文等。这是一个很棒的列表,必须立即添加到你的阅读列表中。我希望你会发现我在这里的符号很有价值。干杯!!
不幸的是,对于BatchScanExec,我发现的唯一有用的东西是此文档https://books.japila.pl/spark-sql-internals/physical-operators/BatchScanExec/

展开查看全部

相关问题