如何在spark中进行文本分析

dgiusagp  于 2021-06-03  发布在  Hadoop
关注(0)|答案(3)|浏览(349)

我对hadoop非常熟悉,但对apachespark完全陌生。目前我正在使用mahout中实现的lda(潜在dirichlet分配)算法来进行主题发现。然而,由于我需要加快进程,我想使用spark,但是lda(或cvb)算法没有在sparkmlib中实现。这是否意味着我必须自己从头开始实施它?如果是这样,spark是否提供了一些使之更容易的工具?

jtw3ybtb

jtw3ybtb1#

实际上,spark 1.3.0现在已经推出,所以lda可用!!
c、 f。https://issues.apache.org/jira/browse/spark-1405
当做,

uqxowvwt

uqxowvwt2#

关于如何在1.3中使用新的spark lda api:
这里有一篇文章描述了api:topic modeling 使用lda:mllib与graphx
并且,它链接到显示如何矢量化文本输入的示例代码:github lda示例

4si2a6ki

4si2a6ki3#

lda最近加入了spark。它不是当前1.2.1版本的一部分。
但是,您可以在当前快照版本上找到一个示例:ldaexample.scala
您还可以阅读有关spark-1405问题的有趣信息。

那我怎么用呢?

在未发布时,最简单的方法可能是复制项目中的以下类,就像您自己编写它们一样:
斯卡拉机场
ldamodel.scala公司

相关问题