无法将xmltype数据类型从oracle加载到spark sql

kpbwa7wx  于 2021-06-09  发布在  Hbase
关注(0)|答案(1)|浏览(348)

我有六千七百万 Oracle 包含某些列的记录 XMLType 作为数据类型。
我正在使用 Spark SQL 从数据库中提取所有记录 Oracle 但我越来越
不支持的数据类型错误
在Spark控制台里。
如何更改 XMLType 以便成功地将其加载到 Spark SQL ?
我的计划是从 OracleApache HBase 我正在使用 Spark SQL 把货物装进 Apache HBase .

yshpjwxd

yshpjwxd1#

添加sparkxml支持库,以下是坐标
groupid:com.databricks artifactid:spark-xml\u 2.11版本:0.4.1
然后您可以将xml文件作为Dataframe获取,如:

import org.apache.spark.sql.SQLContext
val sqlContext = new SQLContext(sc)
val df = sqlContext.read
        .format("com.databricks.spark.xml")
        .option("rowTag", "book")
        .load("books.xml")

有关更多信息,请查看apachespark的xml数据源
将其转换为Dataframe后,就可以在Dataframe上执行sparksql。

相关问题