为什么在spark ui查询视图中,在读取hive metastore表时,输出行数显示错误的数字?

wkftcu5l  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(247)

我正在读取一个metastore表,它的数据存储在parquet文件中,这些文件有大约100万条记录,但不知怎么的,在扫描行数的阶段上的查询视图中,读取的记录数量要大得多(超过2亿条),在这个过程中不断增长(见下面的屏幕截图)。这没有道理。
我验证了很多次printing.count()和hive中直接查询的记录数,而且肯定是100万条。

这是我用来读取spark作业中的文件的查询:

joined_pointx = spark.sql("""SELECT c.unique_reference_number, c.name, c.brand, c.pointx_classification_name, c.lat, c.long, CAST(d.poi_radious_meters as INT) as poi_radious_meters
  FROM adp_uk.pointx as c INNER JOIN temp.pointx_category d ON c.pointx_classification_code = d.category_code""")

其中adp_uk.pointx是我正在阅读的表。
你知道为什么会这样吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题