所以我是全新的Spark,我试图使用Spark WebUI来阅读计划,dags和类似的东西。老实说,我发现缺乏关于spark物理,逻辑e.t.c计划的信息非常令人不安。例如,我一直在寻找2个小时,试图在物理计划中找到有关BatchScan步骤的信息。所以我的问题是:有没有某种百科全书来解释所有的参数?有没有至少某种备忘录来解释一些基本的spark查询计划步骤?先谢谢你!
e37o9pze1#
在我看来,Spark SQL细节的最佳单一知识来源是Jacek Laskowski的这本书:The Internals of Spark SQL在这里,您可以找到组件的高级描述以及每个步骤的详细描述(您可以尝试使用搜索来查找BatchScan的文档)您也可以随时查看Spark源代码,例如,您可以在这里看到BatchScanExec的代码
ssgvzors2#
一个你可能会发现有用的Apache Spark资源的精选列表。专注于不同用例的Apache Spark资源。它包括以下资源:
第一个链接是here和here。一般来说,你可以在上面的链接中找到大量的信息,通过与Apache Spark相关的最新资源来扩展你的知识,这些资源包括工具,书籍,论文等。这是一个很棒的列表,必须立即添加到你的阅读列表中。我希望你会发现我在这里的符号很有价值。干杯!!不幸的是,对于BatchScanExec,我发现的唯一有用的东西是此文档https://books.japila.pl/spark-sql-internals/physical-operators/BatchScanExec/
2条答案
按热度按时间e37o9pze1#
在我看来,Spark SQL细节的最佳单一知识来源是Jacek Laskowski的这本书:The Internals of Spark SQL
在这里,您可以找到组件的高级描述以及每个步骤的详细描述(您可以尝试使用搜索来查找BatchScan的文档)
您也可以随时查看Spark源代码,例如,您可以在这里看到BatchScanExec的代码
ssgvzors2#
一个你可能会发现有用的Apache Spark资源的精选列表。专注于不同用例的Apache Spark资源。它包括以下资源:
第一个链接是here和here。
一般来说,你可以在上面的链接中找到大量的信息,通过与Apache Spark相关的最新资源来扩展你的知识,这些资源包括工具,书籍,论文等。这是一个很棒的列表,必须立即添加到你的阅读列表中。我希望你会发现我在这里的符号很有价值。干杯!!
不幸的是,对于BatchScanExec,我发现的唯一有用的东西是此文档https://books.japila.pl/spark-sql-internals/physical-operators/BatchScanExec/