gcp上运行spark的问题

q0qdq0h2 于 2021-07-13 发布在 Hadoop

关注(0)|答案(0)|浏览(246)

我们为我们的平台的每个版本运行许多脚本，我们希望用snakemake自动化这些脚本的运行。计划是在googlecloud上启动一个vm并在那里运行snakemake，输入/输出文件的位置从yaml文件读取。
除了使用pyspark并从google bucket读取源文件的脚本之外，其他的工作都很好。pyspark似乎使用hadoop从gs://位置读取文件，因此hadoop需要正确配置spark。
我们还没有弄清楚如何正确构建hadoop环境，当我们运行spark脚本时，它总是说：

WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

当使用dataproc时，我们没有这样的问题，但是我们不能重现那个环境，我不确定是否有可能向dataproc提交一个完整的snakemake管道及其所有依赖项。
不使用dataproc就可以建立hadoop环境吗？关于如何处理这个工作流程，你还有其他的建议吗？

hadoop pyspark google-cloud-platform dataproc snakemake

来源：https://stackoverflow.com/questions/66224309/problems-running-spark-on-gcp

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

gcp上运行spark的问题

暂无答案！

相关问题

热门标签

最新问答