如何从hdfs读取配置单元数据

aor9mmx1  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(467)

我在hdfs有Hive仓库hdfs://localhost:8020/用户/Hive/仓库。
我在hdfs中有一个数据库mydb,比如hdfs://localhost:8020/user/hive/warehouse/mydb.db
如何使用pyspark创建表并向其中插入数据
请建议

gv8xihay

gv8xihay1#

使用配置单元上下文,您将能够在配置单元中创建表,请参阅下面的代码来实现这一点。

  1. import findspark
  2. findspark.init()
  3. import pyspark
  4. from pyspark.sql import HiveContext
  5. //hivecontext
  6. sqlCtx= HiveContext(sc)
  7. //Loading a csv file into dataframe
  8. spark_df = sqlCtx.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load("./data/documents_topics.csv")
  9. //registering temp table
  10. spark_df.registerTempTable("TABLE_Y")
  11. //Creating table out of an existing temp created from data frame table
  12. sqlCtx.sql("CREATE TABLE TABLE_X AS SELECT * from TABLE_Y")
  13. //creating a brand new table in Hive
  14. sqlCtx.sql("CREATE TABLE SomeSchema.TABLE_X (customername string, id string, ts timestamp) STORED AS DESIREDFORMAT")

希望你能理解代码中的注解,如果遇到问题请告诉我。

展开查看全部

相关问题