我创建了一个Parquet文件,在文件级自定义元数据:
现在我尝试从(Azure)数据块中的Parquet文件读取元数据,但是当我运行下面的代码时,我没有得到任何元数据。
storageaccount = 'zzzzzz'
containername = 'yyyyy'
access_key = 'xxxx'
spark.conf.set(f'fs.azure.account.key.{storageaccount}.blob.core.windows.net', access_key)
path = f"wasbs://{containername}@{storageaccount}.blob.core.windows.net/generated_example_10m.parquet"
data = spark.read.format('parquet').load(path)
print(data.printSchema())
1条答案
按热度按时间ddrv8njm1#
我尝试在我的环境中重现同样的东西。我得到了这个输出。
请遵循以下代码并使用select(“*",“_metadata”)
或
使用
.select("*", "_metadata")
说明您的模式和加载路径