我正在读取一个metastore表,它的数据存储在parquet文件中,这些文件有大约100万条记录,但不知怎么的,在扫描行数的阶段上的查询视图中,读取的记录数量要大得多(超过2亿条),在这个过程中不断增长(见下面的屏幕截图)。这没有道理。
我验证了很多次printing.count()和hive中直接查询的记录数,而且肯定是100万条。
这是我用来读取spark作业中的文件的查询:
joined_pointx = spark.sql("""SELECT c.unique_reference_number, c.name, c.brand, c.pointx_classification_name, c.lat, c.long, CAST(d.poi_radious_meters as INT) as poi_radious_meters
FROM adp_uk.pointx as c INNER JOIN temp.pointx_category d ON c.pointx_classification_code = d.category_code""")
其中adp_uk.pointx是我正在阅读的表。
你知道为什么会这样吗?
暂无答案!
目前还没有任何答案,快来回答吧!