假设aws s3上的Parquet文件(用于aws athena查询)。我需要通过更改数值(更改一个数字就足够了)来匿名化具有特定数字字段的记录。我能把Parquet地板文件扫描成二进制文件并找到一个数值吗?或者压缩会导致找不到这样的字符串?假设我可以做#1-我可以通过在二进制级别更改此数字上的一个数字来匿名化记录,而不会损坏Parquet地板文件吗?10倍
qlvxas9a1#
不,这是不可能的。Parquet地板有两个层次的格式,使这不可能:编码和压缩。它们都对数据进行了重新排序,以适应更少的空间,它们之间的区别在于cpu使用率和通用性。有时数据可以被压缩,因此如果所有值都相同/非常相似,则每个值需要不到一个字节。更改单个值将导致更多的空间使用,从而使您无法进行编辑。
1条答案
按热度按时间qlvxas9a1#
不,这是不可能的。Parquet地板有两个层次的格式,使这不可能:编码和压缩。它们都对数据进行了重新排序,以适应更少的空间,它们之间的区别在于cpu使用率和通用性。有时数据可以被压缩,因此如果所有值都相同/非常相似,则每个值需要不到一个字节。更改单个值将导致更多的空间使用,从而使您无法进行编辑。