将Parquet文件编辑为二进制文件

qvsjd97n  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(333)

假设aws s3上的Parquet文件(用于aws athena查询)。
我需要通过更改数值(更改一个数字就足够了)来匿名化具有特定数字字段的记录。
我能把Parquet地板文件扫描成二进制文件并找到一个数值吗?或者压缩会导致找不到这样的字符串?
假设我可以做#1-我可以通过在二进制级别更改此数字上的一个数字来匿名化记录,而不会损坏Parquet地板文件吗?
10倍

qlvxas9a

qlvxas9a1#

不,这是不可能的。Parquet地板有两个层次的格式,使这不可能:编码和压缩。它们都对数据进行了重新排序,以适应更少的空间,它们之间的区别在于cpu使用率和通用性。有时数据可以被压缩,因此如果所有值都相同/非常相似,则每个值需要不到一个字节。更改单个值将导致更多的空间使用,从而使您无法进行编辑。

相关问题