我正在尝试在databricks上生成sf300和sf1000 tpch数据。然而,我的脚本已经运行了超过24小时了,我猜我做错了什么。
我按照以下说明操作:https://github.com/databricks/spark-sql-perf. 然后我使用他们存储库中的笔记本(tpcds\u datagen.scala)来生成数据。当然,我修改了参数,将tpcds改为tpc-h。但是速度非常慢。
有人能建议一个更快的方法来帮我吗?提前谢谢。
我正在尝试在databricks上生成sf300和sf1000 tpch数据。然而,我的脚本已经运行了超过24小时了,我猜我做错了什么。
我按照以下说明操作:https://github.com/databricks/spark-sql-perf. 然后我使用他们存储库中的笔记本(tpcds\u datagen.scala)来生成数据。当然,我修改了参数,将tpcds改为tpc-h。但是速度非常慢。
有人能建议一个更快的方法来帮我吗?提前谢谢。
暂无答案!
目前还没有任何答案,快来回答吧!