如何创建一个数据库表使用xlsx文件作为输入使用pyspark

jei2mxaa  于 2021-06-24  发布在  Hive
关注(0)|答案(1)|浏览(294)

我需要创建一个数据库表使用xlsx文件作为输入。我能够使用下面的代码为csv文件和创建一个表使用下面的代码。但是有没有办法使用xlsx文件并创建db表呢。

info=spark.read.option("delimiter", ";").csv("/home/temp/data.csv", header=True)

info.show(4)

info.write.format("parquet").option("path", "/prj/db_info/database_external/mode").mode("overwrite").saveAsTable("db_info.coll_stud_data")

spark.sql("describe table db_info.coll_stud_data").show()

'''

hivapdat

hivapdat1#

要使用spark中的xlsx文件,请使用中的spark excel包https://github.com/crealytics/spark-excel
使用启动pyspark终端 pyspark --packages com.crealytics:spark-excel_2.11:0.13.1 ```
info = spark.read
.format("com.crealytics.spark.excel")
.option("sheetName", "")
.option("header", "true")
.load("/home/temp/data.xlsx")

spark.sql("describe table db_info.coll_stud_data").show()

info.write.format("parquet").option("path", "/prj/db_info/database_external/mode").mode("overwrite").saveAsTable("db_info.coll_stud_data")

相关问题