我是Spark的新手,处理使用pySpark进行数据处理的庞大而复杂的Python脚本。我需要理解每个表是如何连接到另一个表的,而不需要花几天时间去理解代码。
我想为我坚持的脚本(like this)获得类似UML的图。我怎样才能做到这一点在一个Spark的方式?
我想写我自己的快速解决方案,解析给定脚本的AST,或者用我自己的函数装饰一些spark函数,当没有数据被处理时,这些函数将在spark lazy阶段绘制图表。哪一个比较好?另外,也许我错过了一些东西,这类问题通常是如何解决的?据我所知,没有办法做到这一点只使用Spark包。
1条答案
按热度按时间carvr3hs1#
https://github.com/AbsaOSS/spline,尽管它很难集成,但它提供了编程流程的运行时视图。