如何在spark中进行文本分析

dgiusagp 于 2021-06-03 发布在 Hadoop

关注(0)|答案(3)|浏览(393)

我对hadoop非常熟悉，但对apachespark完全陌生。目前我正在使用mahout中实现的lda（潜在dirichlet分配）算法来进行主题发现。然而，由于我需要加快进程，我想使用spark，但是lda（或cvb）算法没有在sparkmlib中实现。这是否意味着我必须自己从头开始实施它？如果是这样，spark是否提供了一些使之更容易的工具？

hadoop mapreduce apache-spark apache-spark-mllib

来源：https://stackoverflow.com/questions/28842340/how-to-do-text-analysis-in-spark

3条答案

按热度按时间

实际上，spark 1.3.0现在已经推出，所以lda可用！！
c、 f。https://issues.apache.org/jira/browse/spark-1405
当做，

赞(0）回复(0）举报 2021-06-04

关于如何在1.3中使用新的spark lda api：
这里有一篇文章描述了api:topic modeling 使用lda:mllib与graphx
并且，它链接到显示如何矢量化文本输入的示例代码：github lda示例

赞(0）回复(0）举报 2021-06-04

lda最近加入了spark。它不是当前1.2.1版本的一部分。
但是，您可以在当前快照版本上找到一个示例：ldaexample.scala
您还可以阅读有关spark-1405问题的有趣信息。

那我怎么用呢？

在未发布时，最简单的方法可能是复制项目中的以下类，就像您自己编写它们一样：
斯卡拉机场
ldamodel.scala公司

赞(0）回复(0）举报 2021-06-03

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 7个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 7个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 7个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 7个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 7个月前