从azure databricks所有表的数据库列获取值

omqzjyyz 于 2023-01-14 发布在其他

关注(0)|答案(1)|浏览(129)

我正在尝试从数据库中的数据库的每个表中获取最小和最大日期。
我已经从以下内容开始：

results =[]

tables_list = spark.sql('show tables in table')

for row in tables_list.collect():
  tablename = row.tableName
  min_update = spark.sql(f"SELECT MIN(date) FROM table.{tablename}").collect()[0][0]
  max_update = spark.sql(f"SELECT MAX(date) FROM table.{tablename}").collect()[0][0]

results.append((tablename,min_update,max_update))

df_update = spark.createDataFrame(results, schema = ['tablename', 'min_update', 'max_update'])

但是当我df_update.display()时，我只得到了最后一个表，其中我希望有60个表，每个表的每行都有最大和最小日期。

Azure

来源：https://stackoverflow.com/questions/75064591/get-a-value-from-azure-databricks-database-column-from-all-tables

1条答案

按热度按时间

w1jd8yoj1#

由于您希望从所有表中获取最大和最小日期，因此需要在for循环中包含append操作。
请看下面我修改了相同代码并得到了所需结果的地方。下面是执行show tables后的 Dataframe ：

results =[]
tables_list = spark.sql('show tables in default')
tables_list.show()

现在我已经在循环中对result数组使用了append操作，并得到了预期的结果。

for row in tables_list.collect():
    tablename = row.tableName
    #default is the name of my database and dt is date column
    min_update = spark.sql(f"SELECT MIN(dt) FROM default.{tablename}").collect()[0][0]
    max_update = spark.sql(f"SELECT MAX(dt) FROM default.{tablename}").collect()[0][0]

    results.append((tablename,min_update,max_update))

df_update = spark.createDataFrame(results, schema = ['tablename', 'min_update', 'max_update'])
df_update.display()

赞(0）回复(0）举报 2023-01-14

我来回答

从azure databricks所有表的数据库列获取值

1条答案

相关问题

热门标签

最新问答