base64数据的java流解码

n3ipq98p  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(623)

我有一些大的base64编码数据(存储在hadoop文件系统的snappy文件中)。此数据最初是gzip文本数据。我需要能够读取这些编码数据的块,对其进行解码,然后将其刷新到gzipoutputstream。
有没有什么想法可以代替将整个base64数据加载到数组中并调用base64.decodebase64(byte[])?
如果我将字符读到“\r\n”分隔符并逐行解码,对吗?例如:

for (int i = 0; i < byteData.length; i++) {
    if (byteData[i] == CARRIAGE_RETURN || byteData[i] == NEWLINE) {
       if (i < byteData.length - 1 && byteData[i + 1] == NEWLINE)
            i += 2;
       else 
            i += 1;

       byteBuffer.put(Base64.decodeBase64(record));

       byteCounter = 0;
       record = new byte[8192];
    } else {
        record[byteCounter++] = byteData[i];
    }
}

遗憾的是,这种方法没有提供任何可读的输出。理想情况下,我希望流读取、解码和流输出数据。
现在,我正在尝试输入一个inputstream,然后复制到gzipout

byteBuffer.get(bufferBytes);

InputStream inputStream = new ByteArrayInputStream(bufferBytes);
inputStream = new GZIPInputStream(inputStream);
IOUtils.copy(inputStream , gzipOutputStream);

它给了我一个java.io.ioexception:损坏的gzip拖车

vjrehmav

vjrehmav1#

感谢尼科斯给我指出了正确的方向。具体来说,我就是这么做的:

private static final byte NEWLINE = (byte) '\n';
private static final byte CARRIAGE_RETURN = (byte) '\r';

byte[] lineSeparators = new byte[] {CARRIAGE_RETURN, NEWLINE};      
Base64InputStream b64is = new Base64InputStream(inputStream, false, 76, lineSeparators);

GZIPInputStream zis = new GZIPInputStream(b64is);

76不是基线64的长度吗?不过,我没有试过80岁。

fhity93d

fhity93d2#

我们一步一步走:
你需要一个 GZIPInputStream 读取压缩数据(而不是 GZIPOutputStream ; 输出流用于压缩数据)。有了这个流,您将能够读取未压缩的原始二进制数据。这需要一个 InputStream 在构造函数中。
您需要一个能够读取base64编码数据的输入流。我建议用手边的 Base64InputStream 来自apache commons编解码器。使用构造函数可以设置行长度、行分隔符和 doEncode=false 解码数据。这又需要另一个输入流—原始的base64编码数据。
这个流取决于你如何得到你的数据;理想情况下,数据应该是可用的 InputStream -问题解决了。如果没有,你可能不得不使用 ByteArrayInputStream (如果是二进制的), StringBufferInputStream (如果是字符串)等。
这个逻辑大致是:

InputStream fromHadoop = ...;                                  // 3rd paragraph
Base64InputStream b64is =                                      // 2nd paragraph
    new Base64InputStream(fromHadoop, false, 80, "\n".getBytes("UTF-8"));
GZIPInputStream zis = new GZIPInputStream(b64is);              // 1st paragraph

请注意你的论点 Base64InputStream (行长和行尾字节数组),您可能需要调整它们。

相关问题