如何在没有databricks的情况下“装载”datalakegen1

ccrfmcuu  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(316)

我们有pyspark代码,我们想在kubernetes中运行。它应该从数据湖gen1存储器中获取数据。现在,我了解到在databricks中,为了能够访问datalake中的文件,应该首先装载它。我想问:a.)是否可能b.)方法是什么

ztigrdn8

ztigrdn81#

我发现最简单的方法是遵循apachehadoop的文档。确保将正确的jar下载到类路径中。
您需要在hadoop core-site.xml文件中设置各种参数,其示例如下,使用clientcredential和oauth2(我用x替换了private info):

<configuration>
  <property>
      <name>fs.adl.oauth2.access.token.provider.type</name>
      <value>ClientCredential</value>
  </property>

  <property>
      <name>fs.adl.oauth2.refresh.url</name>
      <value>https://login.microsoftonline.com/xxxx/oauth2/token</value>
  </property>

  <property>
      <name>fs.adl.oauth2.client.id</name>
      <value>xxxx</value>
  </property>

  <property>
      <name>fs.adl.oauth2.credential</name>
      <value>xxxx</value>
  </property>
</configuration>

相关问题