如何连接scala/spark和drools,性能如何?

ubbxdtey  于 2021-06-27  发布在  Hive
关注(0)|答案(0)|浏览(522)

我的项目正在从scala/spark切换到drools进行规则验证,但我以前从未使用过drools,有人能帮我回答以下问题吗:
我们在hive表中有大约一百万条记录,大约800列,有了这么多的数据,有没有一个好的性能解决方案让drools能够在没有内存中断的情况下执行呢?
因为数据仍然在配置单元表中,所以我们仍然需要使用scala/spark来获取记录,然后将其提供给drools,但是有了这么多的数据,我想将这些数据分成多个部分,并在一个更大的循环中每次将每个部分提供给drools,这是一个好方法吗?或者我应该把所有的数据放在一个列表中,然后把它交给drools?会导致程序崩溃吗?
在drools中验证之后,我们需要将结果写入输出表,但是哪种方法更好呢?写回调用drools的scala代码,让它写进hive表,或者通过调用javajdbc的静态方法直接写进drools中的db2表?我担心的是,如果我为每个循环向配置单元中写入少量数据(例如,如果我们将数据划分为较小的列表),将导致生成太多的文件来存储数据,但是如果直接以drools方式将数据写入db2,则每次只插入一条记录,执行时间将更长。
这是我的一般问题,因为我刚刚开始工作的poc的解决方案,所以我希望有类似的经验可以给我一些建议。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题