我从sparksql查询中得到了输出,尽管实际的配置单元表在查询的列中没有包含足够的记录。配置单元表是按整数列date\u nbr分区的,其中包含类似20181125、20181005的值,出于某种原因,我不得不截断表(注意:我没有删除hdfs中的分区目录)并重新加载周日期的表\u nbr=20181202
数据加载后,我在配置单元上运行下面的查询,得到了预期的结果 SELECT DISTINCT date_nbr FROM transdb.temp date_nbr 20181202
但是sparksql不能提供与hive相同的输出
scala> spark.sql("SELECT DISTINCT date_nbr FROM transdb.temp").map(_.getAs[Int](0)).collect.toList
res9: List[Int] = List(20181125, 20181005, 20181202)
结果让我有点困惑。
暂无答案!
目前还没有任何答案,快来回答吧!