我正在尝试使用PySpark构建一个编程方法,以列出我在Databricks中拥有的所有目录中的所有数据库。虽然我可以使用SQL手动完成此操作,但我希望使用PySpark使其更健壮,以便我可以自动化它。
下面是我使用的代码:
list_catalogs = ['100sandbox', '200playground', '1000', 'sales']
df_catalogs_and_databases = None
_df = None
for catalog in list_catalogs:
_df = spark.sql(f'SHOW DATABASES FROM {catalog}')\
.select(
lit(catalog).alias('catalog'),
col('databaseName').alias('database')
)
try:
df_catalogs_and_databases = df_catalogs_and_databases.union(_df)
except AttributeError as e:
# Catching this AttributeError: 'NoneType' object has no attribute 'union'
df_catalogs_and_databases = _df
except Exception as e:
raise
display(df_catalogs_and_databases)
字符串
运行上述代码时出现以下错误:
[PARSE_SYNTAX_ERROR]在“100”处或附近出现错误。(第1行,位置20)
1条答案
按热度按时间bvk5enib1#
我试过下面的,收到类似的错误像你一样。
我列出了这样的目录。
字符串
错误:
型
然后我列出如下:
的字符串
我尝试了以下方法:
的字符串