我使用下面的语法在ADLSParquet文件的顶部创建一个Azure数据库中的外部表。创建表如果不存在<table_name>使用 parquet 位置'abfss://@'这个语法将自动推断出parquet文件的模式并创建外部表,现在我的问题是当指定位置有多个文件可用时(特别是当文件结构不同时),哪个文件数据库将引用?最近的还是最老的还是随机的?
bxgwgixi1#
我已经复制了上面的结果,并得到了以下结果。这是我的两个Parquet文件,模式不同,因为一个比另一个列少。
当我从文件夹创建表时,它只取了第一个文件,这意味着按字母顺序。
%sql CREATE TABLE if not exists student1 USING parquet OPTIONS (path 'dbfs:/mnt/data/delta/'); select * from student1;
这与pyspark Dataframe 也是一样的。
1条答案
按热度按时间bxgwgixi1#
我已经复制了上面的结果,并得到了以下结果。
这是我的两个Parquet文件,模式不同,因为一个比另一个列少。
当我从文件夹创建表时,它只取了第一个文件,这意味着按字母顺序。
这与pyspark Dataframe 也是一样的。