如何在hdp2.6.5中使用hivewarehouse连接器

7gcisfzg  于 2021-06-25  发布在  Hive
关注(0)|答案(1)|浏览(322)

我有一个要求,以读取配置单元表从Spark是酸启用。
spark by native不支持读取已启用acid的orc文件,唯一的选项是使用spark jdbc。
我们也可以使用HiveWarehouseConnector来读取文件,有人能解释一下使用HiveWarehouseConnector读取文件的步骤吗。
hwc仅适用于HDP3版本。敬请告知。
spark版本:2.3.0
高密度聚乙烯-2.6.5

kupeojn6

kupeojn61#

spark可以读取orc文件,请查看以下文档:https://spark.apache.org/docs/2.3.0/sql-programming-guide.html#orc-文件
下面是读取orc文件的代码示例:

spark.read.format("orc").load("example.orc")

hwc是为hdp3版本制作的,因为hive和spark目录在hdp3中不再兼容(hive在版本3中,spark在版本2中)。
请参见以下文档:https://docs.cloudera.com/hdpdocuments/hdp3/hdp-3.1.5/integrating-hive/content/hive_hivewarehouseconnector_for_handling_apache_spark_data.html

相关问题