假设,我今天有几个客户,所以我要存储他们的信息,如customer\u id、customer\u name、customer\u emailid等。如果我的客户要离开,他希望从我的hdfs中删除他的个人信息。所以我有以下两种方法来达到同样的效果。方法1:1.在hdfs上创建内部表2.使用过滤逻辑从第一个表创建外部表3.在创建第二个表时,对特定列应用自定义项以进行更多列筛选方法2:spark=>读取、过滤、写入还有别的解决办法吗?
kx5bkwkv1#
方法2在配置单元中是可能的-选择、筛选、写入在hdfs中的目录顶部创建一个表(外部的或托管的,在这个上下文中无关紧要,如果以后要删除表并保持数据的原样,最好是外部的)。从select with filter插入覆盖表或分区。
insert overwrite mytable select * from mytable --the same table where customer_id not in (...) --filter rows
1条答案
按热度按时间kx5bkwkv1#
方法2在配置单元中是可能的-选择、筛选、写入
在hdfs中的目录顶部创建一个表(外部的或托管的,在这个上下文中无关紧要,如果以后要删除表并保持数据的原样,最好是外部的)。从select with filter插入覆盖表或分区。