我已经为我当前的研究项目使用flume收集了twitter数据。我只想从这些flumedata文件中提取文本。我想对这些tweet进行mahout文本聚类。有人能告诉我怎么做吗?
到目前为止,
我用flume收集twitter数据
我使用hive解析了我的数据,并构建了一个只包含文本tweets的tweets表。 hive -e 'select * from tweets' > sample.txt
,这让我把所有的微博都变成了一个文本文档。
我用Hive来解析数据。。还有别的办法吗?因为我关心的是我想分割成多个文本文档的tweets,以便我可以执行mahout文本聚类。
暂无答案!
目前还没有任何答案,快来回答吧!