我有六千七百万 Oracle 包含某些列的记录 XMLType 作为数据类型。我正在使用 Spark SQL 从数据库中提取所有记录 Oracle 但我越来越不支持的数据类型错误在Spark控制台里。如何更改 XMLType 以便成功地将其加载到 Spark SQL ?我的计划是从 Oracle 到 Apache HBase 我正在使用 Spark SQL 把货物装进 Apache HBase .
Oracle
XMLType
Spark SQL
Apache HBase
yshpjwxd1#
添加sparkxml支持库,以下是坐标groupid:com.databricks artifactid:spark-xml\u 2.11版本:0.4.1然后您可以将xml文件作为Dataframe获取,如:
import org.apache.spark.sql.SQLContext val sqlContext = new SQLContext(sc) val df = sqlContext.read .format("com.databricks.spark.xml") .option("rowTag", "book") .load("books.xml")
有关更多信息,请查看apachespark的xml数据源将其转换为Dataframe后,就可以在Dataframe上执行sparksql。
1条答案
按热度按时间yshpjwxd1#
添加sparkxml支持库,以下是坐标
groupid:com.databricks artifactid:spark-xml\u 2.11版本:0.4.1
然后您可以将xml文件作为Dataframe获取,如:
有关更多信息,请查看apachespark的xml数据源
将其转换为Dataframe后,就可以在Dataframe上执行sparksql。