我有一个solr数据库,包含大约1亿个文档。我想把这些文件发短信给我。我在考虑用Java代码制作文本挖掘模块。然后在hadoop集群上运行jar(模块的输出可以存储在solr中。)我是hadoop和solr的新手。我想知道,这可能吗?和/或是否有更好的方法来文本挖掘文档?任何关于这种情况的想法,都会对我有很大帮助。
k2arahey1#
在使用完全定制的代码之前,请先查看mahout库;它有一个lucene驱动程序,它与hadoop集成用于大多数目的。大多数情况下,您需要术语向量来使用mahout进行挖掘。一旦你有它-这是一个相当无缝的设置。
voj3qocg2#
您是否经常需要access文档?如果需要访问大型文档,可以使用solrcloud。分片和副本结构可以服务于高负载。存储到solr中的json/xml非常容易。
2条答案
按热度按时间k2arahey1#
在使用完全定制的代码之前,请先查看mahout库;它有一个lucene驱动程序,它与hadoop集成用于大多数目的。大多数情况下,您需要术语向量来使用mahout进行挖掘。一旦你有它-这是一个相当无缝的设置。
voj3qocg2#
您是否经常需要access文档?
如果需要访问大型文档,可以使用solrcloud。分片和副本结构可以服务于高负载。
存储到solr中的json/xml非常容易。