在spark中解压缩lz4压缩数据

2j4z5cfb 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(648)

我在hdfs中有lz4压缩数据，我正试图在apachespark中将其解压到rdd中。据我所知 JavaSparkContext 从hdfs读取数据 textFile 它只读取hdfs中的数据。我在网上看到过一些文章 CompressionCodec 但它们都解释了如何将输出压缩到hdfs，而我需要解压缩hdfs上已经存在的内容。
我是新的Spark，所以我提前道歉，如果我错过了一些明显的或如果我的概念理解是不正确的，但如果有人能给我指出正确的方向，这将是伟大的。

hadoop hdfs apache-spark lz4

来源：https://stackoverflow.com/questions/24985704/decompressing-lz4-compressed-data-in-spark

1条答案

按热度按时间

6bc51xsx1#

spark 1.1.0支持通过 sc.textFile . 我使用了spark，它是用支持lz4的hadoop构建的（在我的例子中是2.4.1）
之后，我为我的平台构建了hadoop文档中描述的本机库，并将它们链接到spark via --driver-library-path 选项。
没有链接，就有 native lz4 library not loaded 例外情况。
根据hadoop发行版的不同，构建本机库的步骤可能是可选的。

赞(0）回复(0）举报 2021-06-04

我来回答

在spark中解压缩lz4压缩数据

1条答案

相关问题

热门标签

最新问答