如何使用PySpark从NAS驱动器位置读取Excel(.xlsx)文件并将其加载到Azure Databricks?

hpcdzsge  于 2023-05-23  发布在  Spark
关注(0)|答案(1)|浏览(255)

如何使用pyspark将excel(.xlsx)文件从NAS驱动器位置读取到Azure数据块?
这可能吗或者其他替代品我在ADF for NAS中有链接服务,是否可以通过连接到Data Brick中的链接服务来获取Excel?

ccgok5k5

ccgok5k51#

我的理解是你可以使用ADLS Azure文件共享。感谢CloudIQ您可以使用Azure存储帐户文件共享选项。
x1c 0d1x您可以在这里的文件共享中上传您的excel(.xlsx)文件(或者)您可以使用添加目录选项创建一个目录并上传文件。

确保您具有选择角色:存储Blob数据贡献者
一旦你准备上传的文件在目录中,您可以使用浏览选项来查看目录中的文件。


完成上述所有设置后,您可以登录到数据块工作区。
使用以下命令连接到ADLS文件共享并从数据块访问Excel(.xlsx)文件

  1. spark.conf.set(
  2. "fs.azure.account.key.adlsgen2may15.dfs.core.windows.net",
  3. "<Storageaccount access key>"
  4. )
  5. spark.conf.set(
  6. "fs.azure.account.key.adlsgen2may15.blob.core.windows.net",
  7. "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"
  8. )


dbutils.fs.ls(“abfss:adlsgen2may15.blob.core.windows.net/may15fileshare“)
使用上述命令将您的文件共享与Azure数据块连接,或者如果您在NAS中有更多文件。您可以使用ADF中的“复制”活动将文件从NAS移动到存储帐户。并使用上述代码,帮助您加强连接到您的存储帐户和Databricks。
管道流可以帮助您从存储中挑选文件,还可以通过ADF中的触发器帮助自动化该过程。

展开查看全部

相关问题