从parquet文件创建配置单元表并加载数据

nszi6y05  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(581)

我发现很难将Parquet地板文件装入Hive桌。我正在amazon emr cluster和spark上进行数据处理。但是我需要读取输出的Parquet文件来验证我的转换。我有以下模式的Parquet文件:

  1. root
  2. |-- ATTR_YEAR: long (nullable = true)
  3. |-- afil: struct (nullable = true)
  4. | |-- clm: struct (nullable = true)
  5. | | |-- amb: struct (nullable = true)
  6. | | | |-- L: string (nullable = true)
  7. | | | |-- cdTransRsn: string (nullable = true)
  8. | | | |-- dist: struct (nullable = true)
  9. | | | | |-- T: string (nullable = true)
  10. | | | | |-- content: double (nullable = true)
  11. | | | |-- dscStrchPurp: string (nullable = true)
  12. | | |-- amt: struct (nullable = true)
  13. | | | |-- L: string (nullable = true)
  14. | | | |-- T: string (nullable = true)
  15. | | | |-- content: double (nullable = true)
  16. | | |-- amtTotChrg: double (nullable = true)
  17. | | |-- cdAccState: string (nullable = true)
  18. | | |-- cdCause: string (nullable = true)

如何使用这种模式创建配置单元外部表,并将Parquet文件加载到该配置单元表中进行分析?

p4tfgftt

p4tfgftt1#

你可以用 Catalog.createExternalTable (2.2之前的Spark)或 Catalog.createTable (spark 2.2及更高版本)。 Catalog 可以使用访问示例 SparkSession :

  1. val spark: SparkSession
  2. spark.catalog.createTable(...)

应在启用配置单元支持的情况下初始化会话。

相关问题