gcp上运行spark的问题

q0qdq0h2  于 2021-07-13  发布在  Hadoop
关注(0)|答案(0)|浏览(234)

我们为我们的平台的每个版本运行许多脚本,我们希望用snakemake自动化这些脚本的运行。计划是在googlecloud上启动一个vm并在那里运行snakemake,输入/输出文件的位置从yaml文件读取。
除了使用pyspark并从google bucket读取源文件的脚本之外,其他的工作都很好。pyspark似乎使用hadoop从gs://位置读取文件,因此hadoop需要正确配置spark。
我们还没有弄清楚如何正确构建hadoop环境,当我们运行spark脚本时,它总是说:

WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

当使用dataproc时,我们没有这样的问题,但是我们不能重现那个环境,我不确定是否有可能向dataproc提交一个完整的snakemake管道及其所有依赖项。
不使用dataproc就可以建立hadoop环境吗?关于如何处理这个工作流程,你还有其他的建议吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题