免责声明:我是新的配置单元和不重复的创建配置单元表读取Parquet地板文件从Parquet/avro模式(已经尝试了解决方案)
我有一个spark的工作,就是不断地以Parquet格式写入hdfs,我正在尝试将其加载到hive中,以便能够轻松地进行查询(我的期望)。
我正在将文件保存为Parquet文件 hdfs://X.X.X.X.5430/home/hduser/spark/testLogs/.
所以,当我要加载那些Parquet文件Hive表,我不能加载它。我正在用下面的命令创建一个外部配置单元表,但是当我查询它时没有数据。
"CREATE EXTERNAL TABLE IF NOT EXISTS log ( ipAddress STRING," +
"logLevel STRING," +
"userID STRING," +
"dateTimeString STRING," +
"method STRING," +
"endpoint STRING, " +
"protocol STRING," +
"responseCode INT," +
"content STRING," +
"trackingId STRING" +
") STORED AS PARQUET LOCATION 'hdfs://X.X.X.X:54310/home/hduser/spark/testlog/'");
另外,当我尝试手动将文件加载到表中时,会出现以下错误
load data inpath "hdfs://X.X.X.X:54310/home/hduser/spark/testlog/part-r-00000-29ad05a5-ca12-4332-afd0-39eb337a1acd.parquet" into table log;
已执行查询,包括本地查询和无错误查询 FAILED: SemanticException Line 1:17 Invalid path .... No files matching path
有没有人遇到过这样的情况。。我错过什么了吗。。。。请给我指一下正确的方向。。。欢迎任何建议。。。
ps:我不能加载任何类型的文件格式。csv或txt在相应类型的表中
另外,如果有人知道如何将streamingrdd数据从spark填充到hive。。。请告诉我怎么做。
暂无答案!
目前还没有任何答案,快来回答吧!