我正在尝试读取linux机器上的.tar文件。tar文件有.gz文件和包含.gz文件的文本文件。我想编写一个spark程序来选择tar文件并将.gz文件或底层文本文件加载到hive表中。spark API非常混乱。有些使用二进制文件、文本文件和wholetextfileapi。有人能推荐一个好的例子和api为我的要求。更新:spark版本:2.0.2
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!