是否可以使用配置单元创建n个指向单个hdfs路径的外部表。如果是的话,它的优点和局限性是什么。
1tuwyuhd1#
可以在hdfs中的同一位置上创建多个表(同时是托管表和外部表)。在相同的数据上创建具有完全相同的模式的表一点用都没有,但是您可以创建具有不同列数的不同表,或者使用regexserde创建具有不同解析列的不同表,这样您就可以在这些表中具有不同的模式。您可以对配置单元中的这些表拥有不同的权限。也可以在其他表文件夹的子文件夹上创建表,在这种情况下,它将包含一个子集数据。最好在同一个表中使用分区。缺点是它很混乱,因为您可以使用多个表重写相同的数据,而且您可能会意外地删除它,认为此数据属于唯一的表,您可以删除数据,因为您不再需要该表。这是一些测试:创建具有int列的表:
create table T(id int); OK Time taken: 1.033 seconds
检查位置和其他属性:
hive> describe formatted T; OK # col_name data_type comment id int # Detailed Table Information Database: my Owner: myuser CreateTime: Fri Jan 04 04:45:03 PST 2019 LastAccessTime: UNKNOWN Protect Mode: None Retention: 0 Location: hdfs://myhdp/user/hive/warehouse/my.db/t Table Type: MANAGED_TABLE Table Parameters: transient_lastDdlTime 1546605903 # Storage Information SerDe Library: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe InputFormat: org.apache.hadoop.mapred.TextInputFormat OutputFormat: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat Compressed: No Num Buckets: -1 Bucket Columns: [] Sort Columns: [] Storage Desc Params: serialization.format 1 Time taken: 0.134 seconds, Fetched: 26 row(s) sts)
在相同位置的顶部创建第二个表,但带有字符串列:
hive> create table T2(id string) location 'hdfs://myhdp/user/hive/warehouse/my.db/t'; OK Time taken: 0.029 seconds
插入数据:
hive> insert into table T values(1); OK Time taken: 33.266 seconds
检查数据:
hive> select * from T; OK 1 Time taken: 3.314 seconds, Fetched: 1 row(s)
插入第二个表:
hive> insert into table T2 values( 'A'); OK Time taken: 23.959 seconds
hive> select * from T2; OK 1 A Time taken: 0.073 seconds, Fetched: 2 row(s)
从第一个表中选择:
hive> select * from T; OK 1 NULL Time taken: 0.079 seconds, Fetched: 2 row(s)
字符串被选择为空,因为此表被定义为具有int列。现在将字符串插入第一个表(int列):
insert into table T values( 'A'); OK Time taken: 84.336 seconds
令人惊讶的是,它没有失败!插入了什么?
hive> select * from T2; OK 1 A NULL Time taken: 0.067 seconds, Fetched: 3 row(s)
插入了null,因为在上一次插入期间字符串被转换为int,这导致了null现在,让我们尝试删除一个表并从另一个表中进行选择:
hive> drop table T; OK Time taken: 4.996 seconds hive> select * from T2; OK Time taken: 6.978 seconds
返回0行,因为第一个表已被管理,并且删除表也删除了公共位置。最后,数据被删除,我们需要t2表中没有数据吗?
drop table T2; OK
第二个表被删除了,你看,它只是元数据。这张table也得到了管理和管理 drop table 也应该删除包含数据的位置,但是在hdfs中已经没有什么可以删除的了,只有元数据被删除了。
drop table
1条答案
按热度按时间1tuwyuhd1#
可以在hdfs中的同一位置上创建多个表(同时是托管表和外部表)。
在相同的数据上创建具有完全相同的模式的表一点用都没有,但是您可以创建具有不同列数的不同表,或者使用regexserde创建具有不同解析列的不同表,这样您就可以在这些表中具有不同的模式。您可以对配置单元中的这些表拥有不同的权限。也可以在其他表文件夹的子文件夹上创建表,在这种情况下,它将包含一个子集数据。最好在同一个表中使用分区。
缺点是它很混乱,因为您可以使用多个表重写相同的数据,而且您可能会意外地删除它,认为此数据属于唯一的表,您可以删除数据,因为您不再需要该表。
这是一些测试:
创建具有int列的表:
检查位置和其他属性:
在相同位置的顶部创建第二个表,但带有字符串列:
插入数据:
检查数据:
插入第二个表:
检查数据:
从第一个表中选择:
字符串被选择为空,因为此表被定义为具有int列。
现在将字符串插入第一个表(int列):
令人惊讶的是,它没有失败!
插入了什么?
插入了null,因为在上一次插入期间字符串被转换为int,这导致了null
现在,让我们尝试删除一个表并从另一个表中进行选择:
返回0行,因为第一个表已被管理,并且删除表也删除了公共位置。
最后,
数据被删除,我们需要t2表中没有数据吗?
第二个表被删除了,你看,它只是元数据。这张table也得到了管理和管理
drop table
也应该删除包含数据的位置,但是在hdfs中已经没有什么可以删除的了,只有元数据被删除了。