DataX最新版本v202309,新增HdfsReader支持parquet文件格式的问题

zy1mlcev  于 4个月前  发布在  HDFS
关注(0)|答案(7)|浏览(190)

hive版本 : hive3
hdfs版本 : 3.1.5
场景 :
使用hive建表语句在建表时指定文件存储格式为parquet,压缩格式为snappy;
ds调度上新建任务,datax节点下配置文件中设置参数 "fileType": "PARQUET",运行任务提示以下错误,查阅datax的使用文档也并未找到新版本的使用说明以及报错处理
报错内容 :文件类型与用户配置的fileType类型不一致,请确认您配置的目录下面所有文件的类型均为[PARQUET]
有没有遇到相同问题的大佬,求助!

x6yk4ghg

x6yk4ghg1#

你自己编译一下新版本的代码

pkwftd7m

pkwftd7m2#

你自己编译一下新版本的代码

这边是已经编译更新过了,然后重试的

mjqavswn

mjqavswn3#

我也是遇到了问题,编译v202309版本,使用hdfsreader显示仅支持4种格式,没有parquet。。

ebdffaop

ebdffaop4#

你们是下载的压缩包来运行的 还是下载的源码自己打包来运行的
最新的合并就是解决了这个问题。
如果还是不行 就照着这个PR改改代码
#1955

g6baxovj

g6baxovj5#

是需要自己编译最新的代码吗,之前都是直接下载的包更新的

abithluo

abithluo6#

是需要自己编译最新的代码吗,之前都是直接下载的包更新的

自己编译

zfciruhq

zfciruhq7#

是需要自己编译最新的代码吗,之前都是直接下载的包更新的

自己编译

编译个啥,master都编译不过, Could not resolve dependencies for project com.alibaba.datax:hdfsreader:jar:0.0.1-SNAPSHOT: The following artifacts could not be resolved:
com.aliyun.oss:hadoop-aliyun:jar:2.7.2, org.apache.parquet:parquet-format:jar:2.3.0: Could not find artifact com.aliyun.oss:hadoop-aliyun:jar:2.7.2 in central ( https://maven.aliyun.com/reposi
tory/public/) -> [Help 1]

org.apache.parquet:parquet-format:jar:2.3.0 都废了找不到了,还在引用。你自己不试试编译吗?
com.aliyun.oss:hadoop-aliyun:jar:2.7.2 最新都3.3.6了,还用这么老的包。间接引用的包早就废了。
要么就阿里云maven留的全一点,自己引用的包自己都没有。

相关问题