在parquet文件上创建配置单元表后获取空值(使用spark dataframes处理)

p4tfgftt 于 2021-06-24 发布在 Hive

关注(0)|答案(0)|浏览(142)

下面是场景
将一个csv文件加载到Dataframe（df1）
以parquet格式将其写回hdfs（df1.write.parquet（））
添加新列（df2-df1.withcolumn（“dummy”，lit（3））
将mergeschema设置为true
以parquet格式将其写回hdfs（df2.write.parquet（））
将parquet文件加载到新的dataframe（df3）中，以检查新列的模式和值
在printschema中获得了新列，并具有默认值。
检查数据在新列下可用
我已经创建了一个配置单元表并指向Parquet文件位置，但是可以在“dummy”列下看到所有的空值，但是可以查看spark dataframes中的数据，如步骤8所述
你能帮我一下吗

Hive apache-spark-sql pyspark-dataframes

来源：https://stackoverflow.com/questions/62547469/getting-nulls-after-creating-a-hive-table-on-top-of-parquet-file-processed-usin

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

在parquet文件上创建配置单元表后获取空值(使用spark dataframes处理)

暂无答案！

相关问题

热门标签

最新问答