我将5个bzip2文件从hdfs加载到5个不同的配置单元表中(存储为文本文件)。我注意到表中的数据都混在一起了。为了避免这种情况,我按照以下建议将数据插入另一个表(存储为序列文件):
https://cwiki.apache.org/confluence/display/hive/compressedstorage
然而,生成的序列文件的大小是巨大的。所以我没有得到压缩文件的好处?是否有一种方法或任何设置允许配置单元以压缩格式高效地处理文件而不丢失数据完整性?
当我使用hadoopmr或pig处理bzip文件时,没有数据完整性问题。
暂无答案!
目前还没有任何答案,快来回答吧!