我正在aws上使用以下硬件开发一个小型(ish)emr群集:
1个主机:m5.12xlarge
4名工人:m5.12xlarge
这些示例的大小如下所示。
我的问题是在一个非常大的表上有一个长时间运行的计算开销很大的进程(运行shap值)。我正在使用一个udf来尝试并加速这个处理(如果没有它,将无法运行)。我正在创建一个伪组标签,它是一个介于1和k之间的整数,并通过spark(pyspark)中的处理来使用这个组。我的问题是,是否有一种给定硬件配置的方法来确定要创建多少组(“k”),以便尽可能快地处理所有数据?
暂无答案!
目前还没有任何答案,快来回答吧!