我希望使用Hadoop中保存的 parquet 在Greenplum中创建一个外部表。
CREATE EXTERNAL TABLE test(DT_MONTH date, FLD_002 varchar(250), cnt_oper int, cnr_err int)
LOCATION ('pxf://server:9000/TEST_FOLDER/TEST?PROFILE=Jdbc&SERVER=hivejdbc')
FORMAT 'CUSTOM' (FORMATTER='pxfwritable_import');
这是我的 parquet ,我用Spark检查过了:
p = 'hdfs://server:9000/TEST_FOLDER/TEST/'
s = spark.read.parquet(p)
s.show(5)
s.printSchema()
+----------+----------------+--------+-------+
| DT_MONTH| FLD_002|cnt_oper|cnr_err|
+----------+----------------+--------+-------+
|2021-04-01|xxxxxxxxxxxxxxxx| 1| 0|
+----------+----------------+--------+-------+
root
|-- DT_MONTH: date (nullable = true)
|-- FLD_002: string (nullable = true)
|-- cnt_oper: long (nullable = true)
|-- cnr_err: long (nullable = true)
在greenplum中,我有一个错误
SQL Error [08000]: ERROR: PXF server error :
Error operating EXECUTE_STATEMENT: org.apache.spark.sql.catalyst.parser.ParseException:
(seg0 slice1 10.18.205.22:50000 pid=97495)
1条答案
按热度按时间n1bvdmb61#
我想你可能用了incorrect parameters.
医生说你应该有
?PROFILE=hdfs:parquet
所以很可能你需要这样的东西:
如果您需要其他参数的 parquet ,他们在这里描述。