如何使用sparksql将数据写入apache冰山表?

qyuhtwio  于 2021-05-26  发布在  Spark
关注(0)|答案(0)|浏览(542)

我正在尝试熟悉apacheiceberg,但在理解如何使用sparksql将一些外部数据写入表时遇到了一些问题。
我有一个文件,1.csv,在一个目录中,/data
我的冰山目录配置为指向这个目录/warehouse
我想将这个one.csv写入apache iceberg表(最好使用spark sql)
甚至可以使用sparksql读取外部数据吗?然后写在冰山的table上?我必须使用scala或python来完成这个任务吗?我已经阅读了很多有关spark3.0.1文档的冰山一角,但也许我遗漏了一些东西。
代码更新
这里有一些代码,我希望能有所帮助

  1. spark.conf.set("spark.sql.catalog.spark_catalog", "org.apache.iceberg.spark.SparkSessionCatalog")
  2. spark.conf.set("spark.sql.catalog.spark_catalog.type", "hive")
  3. spark.conf.set("spark.sql.catalog.local", "org.apache.iceberg.spark.SparkCatalog")
  4. spark.conf.set("spark.sql.catalog.local.type", "hadoop")
  5. spark.conf.set("spark.sql.catalog.local.warehouse", "data/warehouse")

我在/one/one.csv目录中有我需要使用的数据
如何使用spark将其放入冰山桌中?所有这些都可以纯粹使用sparksql来完成吗?

  1. spark.sql(
  2. """
  3. CREATE or REPLACE TABLE local.db.one
  4. USING iceberg
  5. AS SELECT * FROM `/one/one.csv`
  6. """
  7. )

那么我的目标就是可以直接使用这个冰山表,例如:

  1. select * from local.db.one

这将提供/one/one.csv文件中的所有内容。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题