如何在没有databricks的情况下“装载”datalakegen1

ccrfmcuu 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(316)

我们有pyspark代码，我们想在kubernetes中运行。它应该从数据湖gen1存储器中获取数据。现在，我了解到在databricks中，为了能够访问datalake中的文件，应该首先装载它。我想问：a.）是否可能b.）方法是什么

apache-spark pyspark kubernetes azure-data-lake

来源：https://stackoverflow.com/questions/63388116/how-to-mount-data-lake-gen-1-without-databricks

1条答案

按热度按时间

ztigrdn81#

我发现最简单的方法是遵循apachehadoop的文档。确保将正确的jar下载到类路径中。
您需要在hadoop core-site.xml文件中设置各种参数，其示例如下，使用clientcredential和oauth2（我用x替换了private info）：

<configuration>
  <property>
      <name>fs.adl.oauth2.access.token.provider.type</name>
      <value>ClientCredential</value>
  </property>

  <property>
      <name>fs.adl.oauth2.refresh.url</name>
      <value>https://login.microsoftonline.com/xxxx/oauth2/token</value>
  </property>

  <property>
      <name>fs.adl.oauth2.client.id</name>
      <value>xxxx</value>
  </property>

  <property>
      <name>fs.adl.oauth2.credential</name>
      <value>xxxx</value>
  </property>
</configuration>

赞(0）回复(0）举报 2021-05-27

我来回答

如何在没有databricks的情况下“装载”datalakegen1

1条答案

相关问题

热门标签

最新问答