为什么将数据集保存到impala并将其加载回不会产生任何行？

lb3vh1jj 于 2021-06-26 发布在 Impala

关注(0)|答案(1)|浏览(427)

从impala表中选择创建sparkDataframe

sql_df1 = hive_context.sql("SELECT * FROM database1.table1 LIMIT 10")

1.1此Dataframe返回行计数10并显示正确的数据：sql\u df1

print(sql_df1.count())
    sql_df1.show()

从第一个sparkDataframe创建一个新表
sql\u df1.write.mode（“overwrite”）.format（“parquet”）.saveastable（“database1.table2”）
刷新impala中的元数据，在hue中我可以看到database1.table2有10行正确的数据
使用新表创建新的sparkDataframe。

sql_df2 = hive_context.sql("SELECT * FROM database1.table2 LIMIT 10")

问题：新的SQLDF2没有行，只有头。

print(sql_df2.count())
sql_df2.show()

impala apache-spark python-2.7 pyspark-sql

来源：https://stackoverflow.com/questions/47779171/why-does-saving-dataset-to-impala-and-loading-it-back-yield-no-rows

1条答案

按热度按时间

yftpprvb1#

我发现的问题，格式必须是“Hive”，而不是Parquet。

赞(0）回复(0）举报 2021-06-26

我来回答

为什么将数据集保存到impala并将其加载回不会产生任何行？

1条答案

相关问题

热门标签

最新问答