在parquet文件上创建配置单元表后获取空值(使用spark dataframes处理)

p4tfgftt  于 2021-06-24  发布在  Hive
关注(0)|答案(0)|浏览(142)

下面是场景
将一个csv文件加载到Dataframe(df1)
以parquet格式将其写回hdfs(df1.write.parquet())
添加新列(df2-df1.withcolumn(“dummy”,lit(3))
将mergeschema设置为true
以parquet格式将其写回hdfs(df2.write.parquet())
将parquet文件加载到新的dataframe(df3)中,以检查新列的模式和值
在printschema中获得了新列,并具有默认值。
检查数据在新列下可用
我已经创建了一个配置单元表并指向Parquet文件位置,但是可以在“dummy”列下看到所有的空值,但是可以查看spark dataframes中的数据,如步骤8所述
你能帮我一下吗

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题