首先,请允许我首先说,我是一个新来的 Spark-SQL
.
我试图了解sparksql中的各种连接类型和策略,我希望能够了解一种近似表大小的方法(参与连接的表,聚合等),以便通过了解引擎盖下实际发生的事情来估计/调整预期的执行时间,以帮助我选择最适合该场景的连接策略(在sparksql中通过提示等)。
当然,表行计数提供了一个很好的起点,但是我希望能够根据 bytes
/ KB
/ MB
/ GB
/ TB
s、 要知道哪个表适合/不适合内存等),这将允许我通过选择最适合该场景的连接类型/策略等来编写更高效的sql查询。
注意:我没有权限访问pyspark。我们通过连接到带有hivejdbc驱动程序的glue目录的sqlworkbench查询glue表。
感谢您的帮助。
谢谢。
1条答案
按热度按时间osh3o9ms1#
看看这是否有助于找到表的大小-