我正在尝试运行一个tensorflow扩展的示例代码https://www.tensorflow.org/tfx/tutorials/transform/census 在databricks gpu集群上。
我的环境:
7.1 ML Spark 3.0.0 Scala 2.12 GPU
python 3.7
tensorflow: Version: 2.1.1
tensorflow-transform==0.22.0
apache_beam==2.21.0
当我跑的时候
transform_data(train, test, temp)
我有个错误:
Exception: It appears that you are attempting to reference SparkContext from a broadcast variable, action, or transformation. SparkContext can only be used on the driver, not in code that it run on workers. For more information, see SPARK-5063
这似乎是spark上已知的rdd问题。https://issues.apache.org/jira/browse/spark-5063
我试图在这里寻找一些解决方案,但没有一个对我有效。spark中spark-5063错误的处理
在示例代码中,我没有看到从worker显式访问sparkcontext的位置。它是从Apache光束中调用的?
谢谢
暂无答案!
目前还没有任何答案,快来回答吧!