我需要创建一个数据库表使用xlsx文件作为输入。我能够使用下面的代码为csv文件和创建一个表使用下面的代码。但是有没有办法使用xlsx文件并创建db表呢。
info=spark.read.option("delimiter", ";").csv("/home/temp/data.csv", header=True)
info.show(4)
info.write.format("parquet").option("path", "/prj/db_info/database_external/mode").mode("overwrite").saveAsTable("db_info.coll_stud_data")
spark.sql("describe table db_info.coll_stud_data").show()
'''
1条答案
按热度按时间hivapdat1#
要使用spark中的xlsx文件,请使用中的spark excel包https://github.com/crealytics/spark-excel
使用启动pyspark终端
pyspark --packages com.crealytics:spark-excel_2.11:0.13.1
```info = spark.read
.format("com.crealytics.spark.excel")
.option("sheetName", "")
.option("header", "true")
.load("/home/temp/data.xlsx")
spark.sql("describe table db_info.coll_stud_data").show()
info.write.format("parquet").option("path", "/prj/db_info/database_external/mode").mode("overwrite").saveAsTable("db_info.coll_stud_data")