读取spark中的.tar文件并加载到配置单元

polhcujo  于 2021-06-26  发布在  Hive
关注(0)|答案(0)|浏览(232)

我正在尝试读取linux机器上的.tar文件。
tar文件有.gz文件和包含.gz文件的文本文件。
我想编写一个spark程序来选择tar文件并将.gz文件或底层文本文件加载到hive表中。
spark API非常混乱。有些使用二进制文件、文本文件和wholetextfileapi。
有人能推荐一个好的例子和api为我的要求。
更新:spark版本:2.0.2

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题