我对hadoop非常熟悉,但对apachespark完全陌生。目前我正在使用mahout中实现的lda(潜在dirichlet分配)算法来进行主题发现。然而,由于我需要加快进程,我想使用spark,但是lda(或cvb)算法没有在sparkmlib中实现。这是否意味着我必须自己从头开始实施它?如果是这样,spark是否提供了一些使之更容易的工具?
jtw3ybtb1#
实际上,spark 1.3.0现在已经推出,所以lda可用!!c、 f。https://issues.apache.org/jira/browse/spark-1405当做,
uqxowvwt2#
关于如何在1.3中使用新的spark lda api:这里有一篇文章描述了api:topic modeling 使用lda:mllib与graphx并且,它链接到显示如何矢量化文本输入的示例代码:github lda示例
4si2a6ki3#
lda最近加入了spark。它不是当前1.2.1版本的一部分。但是,您可以在当前快照版本上找到一个示例:ldaexample.scala您还可以阅读有关spark-1405问题的有趣信息。
在未发布时,最简单的方法可能是复制项目中的以下类,就像您自己编写它们一样:斯卡拉机场ldamodel.scala公司
3条答案
按热度按时间jtw3ybtb1#
实际上,spark 1.3.0现在已经推出,所以lda可用!!
c、 f。https://issues.apache.org/jira/browse/spark-1405
当做,
uqxowvwt2#
关于如何在1.3中使用新的spark lda api:
这里有一篇文章描述了api:topic modeling 使用lda:mllib与graphx
并且,它链接到显示如何矢量化文本输入的示例代码:github lda示例
4si2a6ki3#
lda最近加入了spark。它不是当前1.2.1版本的一部分。
但是,您可以在当前快照版本上找到一个示例:ldaexample.scala
您还可以阅读有关spark-1405问题的有趣信息。
那我怎么用呢?
在未发布时,最简单的方法可能是复制项目中的以下类,就像您自己编写它们一样:
斯卡拉机场
ldamodel.scala公司