无法在pyspark中创建Dataframe并将其写入配置单元表

xuo3flqw 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(312)

我试图在pyspark中创建一个Dataframe，然后将其作为一个配置单元表写入，然后将其读回，但它不起作用。。。

sqlContext = HiveContext(sc)

hive_context = HiveContext(sc) #Initialize Hive

# load the control table

cntl_dt = [('2016-04-30')]
rdd = sc.parallelize(cntl_dt)
row_cntl_dt = rdd.map(lambda x: Row(load_dt=x[0]))
df_cntl_dt = sqlContext.createDataFrame(row_cntl_dt)
df_cntl_dt.write.mode("overwrite").saveAsTable("schema.cntrl_tbl")
load_dt  = hive_context.sql("select load_dt  from schema.cntrl_tbl" ).first()['load_dt'];
print (load_dt)

打印：2
我预计：2016-12-31

Hive python apache-spark pyspark

来源：https://stackoverflow.com/questions/48121354/cannot-create-a-dataframe-in-pyspark-and-write-it-to-hive-table