我有一个用bzip2压缩的wikipedia转储文件(下载自http://dumps.wikimedia.org/enwiki/),但我不想将其解压:我想在动态解压缩时对其进行处理。
我知道可以用普通的java实现(比如java-read bz2文件和解压/解析),但是我想知道如何在ApacheFlink中实现它?我可能需要的是https://github.com/whym/wikihadoop 但对于flink,不是hadoop。
我有一个用bzip2压缩的wikipedia转储文件(下载自http://dumps.wikimedia.org/enwiki/),但我不想将其解压:我想在动态解压缩时对其进行处理。
我知道可以用普通的java实现(比如java-read bz2文件和解压/解析),但是我想知道如何在ApacheFlink中实现它?我可能需要的是https://github.com/whym/wikihadoop 但对于flink,不是hadoop。
1条答案
按热度按时间xiozqbni1#
在apache flink中可以读取以下格式的压缩文件:
从包名可以看出,flink使用hadoop的inputformats来实现这一点。这是一个使用flink的scalaapi读取gz文件的示例:(至少需要flink0.8.1)
ApacheFlink只内置了对.deflate文件的支持。添加对更多压缩编解码器的支持很容易,但还没有完成。
与flink一起使用hadoopinputformats不会导致任何性能损失。flink内置了对hadoop的序列化支持
Writable
类型。