我们为我们的平台的每个版本运行许多脚本,我们希望用snakemake自动化这些脚本的运行。计划是在googlecloud上启动一个vm并在那里运行snakemake,输入/输出文件的位置从yaml文件读取。
除了使用pyspark并从google bucket读取源文件的脚本之外,其他的工作都很好。pyspark似乎使用hadoop从gs://位置读取文件,因此hadoop需要正确配置spark。
我们还没有弄清楚如何正确构建hadoop环境,当我们运行spark脚本时,它总是说:
WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
当使用dataproc时,我们没有这样的问题,但是我们不能重现那个环境,我不确定是否有可能向dataproc提交一个完整的snakemake管道及其所有依赖项。
不使用dataproc就可以建立hadoop环境吗?关于如何处理这个工作流程,你还有其他的建议吗?
暂无答案!
目前还没有任何答案,快来回答吧!