基于solr和hadoop的文本挖掘

rkkpypqq  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(411)

我有一个solr数据库,包含大约1亿个文档。我想把这些文件发短信给我。
我在考虑用Java代码制作文本挖掘模块。然后在hadoop集群上运行jar(模块的输出可以存储在solr中。)
我是hadoop和solr的新手。我想知道,这可能吗?和/或是否有更好的方法来文本挖掘文档?
任何关于这种情况的想法,都会对我有很大帮助。

k2arahey

k2arahey1#

在使用完全定制的代码之前,请先查看mahout库;它有一个lucene驱动程序,它与hadoop集成用于大多数目的。大多数情况下,您需要术语向量来使用mahout进行挖掘。一旦你有它-这是一个相当无缝的设置。

voj3qocg

voj3qocg2#

您是否经常需要access文档?
如果需要访问大型文档,可以使用solrcloud。分片和副本结构可以服务于高负载。
存储到solr中的json/xml非常容易。

相关问题