关于在外部表中插入数据,我需要一些澄清。我创建了一个外部Parquet表,它是按周划分的,指向一个hadoop位置,之后我将数据(一个.csv文件)移动到那个位置。我的疑问是,因为表是按周分区的,即使我只是将文件移到那个目录,配置单元也不会读取,我必须使用insert命令,而不是说当我们有一个配置单元表没有分区时,它将直接从hadoop路径读取
dwthyt8l1#
您需要考虑csv中包含哪些数据。例如,如果按年份对定时数据进行分区,则不会将包含多个年份值的csv复制到单个分区中。您需要拆分数据集。即使我只是将文件移动到那个目录,配置单元也不会读取,我必须使用insert命令对的。尤其是因为这是一个Parquet镶嵌者试图读取csv。为了澄清,如果将配置单元放在以文本形式存储的表中,它将读取csv。您需要一个单独的表,在其中可以读取文本文件,然后插入到另一个表中,同时转换文件格式
1条答案
按热度按时间dwthyt8l1#
您需要考虑csv中包含哪些数据。例如,如果按年份对定时数据进行分区,则不会将包含多个年份值的csv复制到单个分区中。您需要拆分数据集。
即使我只是将文件移动到那个目录,配置单元也不会读取,我必须使用insert命令
对的。尤其是因为这是一个Parquet镶嵌者试图读取csv。
为了澄清,如果将配置单元放在以文本形式存储的表中,它将读取csv。
您需要一个单独的表,在其中可以读取文本文件,然后插入到另一个表中,同时转换文件格式